document-classification - 二項文書分類で最も差別的な用語をどのように見つけますか?

Question

特徴選択を使用して、二項分類タスクに最も役立つドキュメント内の用語を見つけたいと考えています。

私は周りを見てきました：
これは、相互情報量とカイ二乗検定の指標について言及しています
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB にもいくつかの関数があります。
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB での機能の選択
上記のうち、relieff と rankfeatures が有望に見えます。

データが正規分布に従っているかどうかわかりません。どのテクニックが最高のパフォーマンスを発揮するかについて何か考えはありますか? あなたが提案する新しい方法はありますか？焦点は、分類精度を高めることです。

ありがとうございました！

score 1 · Accepted Answer

答えはデータの性質に大きく依存するため、検証のためにホールドアウトセットを使用するなど、いくつかのオプションを試してみることをお勧めします。最も簡単な方法は、実験にWekaまたはRapidMinerを使用することです。それらが提供する多数のオプションから選択すると、おそらく他のいくつかの方法に慣れるでしょう。

そうは言っても、Mutual Information/Infogain はさまざまな問題に役立つことがわかりました。

document-classification - 二項文書分類で最も差別的な用語をどのように見つけますか?

1 に答える 1

Related

Reference