Python nltk を使用してテキストマイニング目的で SVM 分類を適用し、精度を取得し、精度の異なる測定情報を呼び戻したいと考えています。これを行うために、データセットを前処理し、データセットを 2 つのテキストファイル、つまり-pos_file.txt (正のラベル) と neg_file に分割します。 .txt (ネガティブ ラベル)。そして今、データのトレーニングに 70%、テストに 30% のランダム サンプリングを使用して SVM 分類子を適用したいと考えています。scikit-learn のドキュメントをいくつか見ましたが、これをどのように適用すればよいか正確にはわかりませんか?
pos_file.txt と neg_file.txt は、どちらも単語の袋と見なすことができます。便利なリンク -
- http://scikit-learn.org/stable/modules/feature_extraction.html
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html
サンプル ファイル: pos_file.txt
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
サンプル ファイル: neg_file.txt
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
さらに、ユニグラム、バイグラム、トライグラムに同じアプローチを適用することは興味深いでしょう。あなたの提案やサンプルコードを楽しみにしています。