python - オレンジ色の SVM トレイン用のテキストデータを準備するには?

Question

私は 2 年前に NLTK 分類器を使用しました。テキスト分類にオレンジ色の SVM を使用する方法を学びたいと思います。オレンジ色のチュートリアルの SVM の例は、iris.tab です。

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

テキストを分類したい場合、データをどのように準備するか。下のようなものですか？

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

データを準備するさまざまな方法の例を教えてください。トークンを SVM のラベルとして表示できますか?そうでない場合、どうすればよいですか?

よろしくお願いします。

score 1 · Accepted Answer

簡単な答え: いいえ。

長い回答: ラベルは、処理するドキュメントのカテゴリを指します。たとえば、ドキュメントを SPAM と HAM などの 2 つのカテゴリに分類しようとしている場合、ラベルは SPAM と HAM にする必要があります。データ表現には、Bag of Words (http://en.wikipedia.org/wiki/Bag_of_words_model) などの手法を使用できます。

詳細については、次のことをお勧めします。

SVM テキスト分類、http://www.igvita.com/2006/06/02/svm-text-classification/
サポートベクターマシンを使用したテキストの分類の学習、http://www.cs.cornell.edu/People/tj/svmtcatbook/

python - オレンジ色の SVM トレイン用のテキスト データを準備するには?

1 に答える 1

Related

Reference

python - オレンジ色の SVM トレイン用のテキストデータを準備するには?