0

テキスト分類のために weka で作業しています。ボキャブラリには合計 113232 個の属性があり、その中から上位 10,000 個の属性を選択したいと考えています。以下は私のinformationGainフィルターの設定です

AttributeSelection featureSelectionFilter = new AttributeSelection();

InfoGainAttributeEval informationGain = new InfoGainAttributeEval();

 Ranker ranker = new Ranker();
 ranker.setNumToSelect(10000);
 ranker.setThreshold(0);

私は、属性をそれらの情報利得に関して降順に並べると仮定しましたが、私の仮定が正しいか間違っているかはわかりません。ここに 3 つの属性のイメージがあります。

ここに画像の説明を入力

最大値 std dev は、最初の属性のすべてが他の属性よりも高いことを意味します。これはその重要性を示している可能性がありますが、2 番目の属性のこれらの値は 3 番目よりも小さいですか? そうですか?numToSelect(10, 000) を設定したときに語彙から属性を IG 選択する方法。?

4

0 に答える 0