特徴選択を使用して、二項分類タスクに最も役立つドキュメント内の用語を見つけたいと考えています。
私は周りを見てきました:
これは、相互情報量とカイ二乗検定の指標について言及しています
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB にもいくつかの関数があります。
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB での機能の選択
上記のうち、relieff と rankfeatures が有望に見えます。
データが正規分布に従っているかどうかわかりません。どのテクニックが最高のパフォーマンスを発揮するかについて何か考えはありますか? あなたが提案する新しい方法はありますか?焦点は、分類精度を高めることです。
ありがとうございました!