Wekaを使用して、ドキュメントを2つのカテゴリ(category1とcategory2)に分類しようとしています。
両方のカテゴリに属する600のドキュメントで構成されるトレーニングセットを収集しました。分類されるドキュメントの総数は1,000,000です。
したがって、分類を実行するために、StringToWordVectorフィルターを適用します。フィルタから次のようにtrueを設定します。-IDF変換-TFransform-OutputWordCounts
このプロセスについていくつか質問したいと思います。
1)過剰適合を回避するために、トレーニングセットとしていくつのドキュメントを使用する必要がありますか?
2)フィルターを適用した後、トレーニングセット内の単語のリストを取得します。分類器でより良い結果を得るには、それらのいずれかを削除する必要がありますか、それとも何の役割も果たしませんか?
3)分類方法として、私は通常naiveBayesを選択しますが、得られる結果は次のとおりです。
-------------------------
Correctly Classified Instances 393 70.0535 %
Incorrectly Classified Instances 168 29.9465 %
Kappa statistic 0.415
Mean absolute error 0.2943
Root mean squared error 0.5117
Relative absolute error 60.9082 %
Root relative squared error 104.1148 %
----------------------------
SMOを使用すると、結果は次のようになります。
------------------------------
Correctly Classified Instances 418 74.5098 %
Incorrectly Classified Instances 143 25.4902 %
Kappa statistic 0.4742
Mean absolute error 0.2549
Root mean squared error 0.5049
Relative absolute error 52.7508 %
Root relative squared error 102.7203 %
Total Number of Instances 561
------------------------------
では、ドキュメント分類では、どちらが「より良い」分類子ですか?私が持っているような小さなデータセットにはどちらが良いですか?naiveBayesはビッグデータセットでパフォーマンスが向上することを読みましたが、データセットを増やすと、「過剰適合」効果が発生しますか?また、カッパ統計について、受け入れられるしきい値はありますか、それともカテゴリが2つしかないため、この場合は問題ではありませんか?
長い投稿で申し訳ありませんが、分類結果を改善するために1週間努力しましたが、各カテゴリにより適したドキュメントを取得しようとしましたが、成功しませんでした。