0

私は 2 年前に NLTK 分類器を使用しました。テキスト分類にオレンジ色の SVM を使用する方法を学びたいと思います。オレンジ色のチュートリアルの SVM の例は、iris.tab です。

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

テキストを分類したい場合、データをどのように準備するか。下のようなものですか?

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

データを準備するさまざまな方法の例を教えてください。トークンを SVM のラベルとして表示できますか?そうでない場合、どうすればよいですか?

よろしくお願いします。

4

1 に答える 1

1

簡単な答え: いいえ。

長い回答: ラベルは、処理するドキュメントのカテゴリを指します。たとえば、ドキュメントを SPAM と HAM などの 2 つのカテゴリに分類しようとしている場合、ラベルは SPAM と HAM にする必要があります。データ表現には、Bag of Words (http://en.wikipedia.org/wiki/Bag_of_words_model) などの手法を使用できます。

詳細については、次のことをお勧めします。

于 2011-11-21T13:14:31.190 に答える