148 個の入力フィーチャを含む分類データセットがあります (そのうち 20 個はバイナリで、残りは [0,1] の範囲で連続しています)。データセットには 66171 の負の例と 71 の正の例しかありません。
データセット (arff
テキスト ファイル) は、次のドロップボックス リンクからダウンロードできます: https://dl.dropboxusercontent.com/u/26064635/SDataset.arff。
Weka スイートで and を使用するCfsSubsetEval
とGreedyStepwise
( と をsetSearchBackwards()
セットしtrue
てfalse
)、選択した機能セットには 2 つの機能 (つまり79
と140
) しか含まれません! この 2 つの特徴による分類性能が非常に悪いことは言うまでもありません。
(Wekaでも)使用ConsistencySubsetEval
すると、ZERO機能の選択につながります!代わりに特徴ランキング方式を使用し、最良の (たとえば 12) 特徴を選択すると、はるかに優れた分類パフォーマンスが達成されます。
2 つの質問があります。
まず、そのようないくつかの機能の選択につながるデータセットについてはどうですか? 正例と負例の数のバランスが悪いからでしょうか。
2番目に、そしてもっと重要なことに、私が試すことができ、より多くの機能の選択につながる可能性のある他のサブセット選択方法(Matlabまたはその他)はありますか?