machine-learning - wekaでの情報取得に関する属性の選択方法は?

翻译自：https://stackoverflow.com/questions/21464462 2014-01-30T18:18:53.703

1600 次

テキスト分類のために weka で作業しています。ボキャブラリには合計 113232 個の属性があり、その中から上位 10,000 個の属性を選択したいと考えています。以下は私のinformationGainフィルターの設定です

AttributeSelection featureSelectionFilter = new AttributeSelection();

InfoGainAttributeEval informationGain = new InfoGainAttributeEval();

 Ranker ranker = new Ranker();
 ranker.setNumToSelect(10000);
 ranker.setThreshold(0);

私は、属性をそれらの情報利得に関して降順に並べると仮定しましたが、私の仮定が正しいか間違っているかはわかりません。ここに 3 つの属性のイメージがあります。

ここに画像の説明を入力

最大値 std dev は、最初の属性のすべてが他の属性よりも高いことを意味します。これはその重要性を示している可能性がありますが、2 番目の属性のこれらの値は 3 番目よりも小さいですか? そうですか？numToSelect(10, 000) を設定したときに語彙から属性を IG 選択する方法。?

machine-learning - wekaでの情報取得に関する属性の選択方法は?

0 に答える 0

Related

Reference