私は 2 年前に NLTK 分類器を使用しました。テキスト分類にオレンジ色の SVM を使用する方法を学びたいと思います。オレンジ色のチュートリアルの SVM の例は、iris.tab です。
sepal length sepal width petal length petal width iris
c c c c d
class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
テキストを分類したい場合、データをどのように準備するか。下のようなものですか?
token frequency tokenlength
the 23 3
for 21 3
at 10 2
データを準備するさまざまな方法の例を教えてください。トークンを SVM のラベルとして表示できますか?そうでない場合、どうすればよいですか?
よろしくお願いします。