matlab - サブセット選択方法によってこのデータセットで選択されるフィーチャが少なすぎる理由

Question

148 個の入力フィーチャを含む分類データセットがあります (そのうち 20 個はバイナリで、残りは [0,1] の範囲で連続しています)。データセットには 66171 の負の例と 71 の正の例しかありません。

データセット (arffテキストファイル) は、次のドロップボックスリンクからダウンロードできます: https://dl.dropboxusercontent.com/u/26064635/SDataset.arff。

Weka スイートで and を使用するCfsSubsetEvalとGreedyStepwise( とをsetSearchBackwards()セットしtrueてfalse)、選択した機能セットには 2 つの機能 (つまり79と140) しか含まれません! この 2 つの特徴による分類性能が非常に悪いことは言うまでもありません。

（Wekaでも）使用ConsistencySubsetEvalすると、ZERO機能の選択につながります！代わりに特徴ランキング方式を使用し、最良の (たとえば 12) 特徴を選択すると、はるかに優れた分類パフォーマンスが達成されます。

2 つの質問があります。

まず、そのようないくつかの機能の選択につながるデータセットについてはどうですか? 正例と負例の数のバランスが悪いからでしょうか。

2番目に、そしてもっと重要なことに、私が試すことができ、より多くの機能の選択につながる可能性のある他のサブセット選択方法(Matlabまたはその他)はありますか?

score 0 · Accepted Answer

明らかに、クラスの不均衡は役に立ちません。より良い診断のために、データセットのサブサンプルを取得することを試みることができます。SpreadSubsample フィルターを使用すると、10:1、3:1、または適切と思われるものなど、許容されるクラスの不均衡の最大値を示すことができます。

選択方法については、まず WEKA で PCA などの次元削減方法を試すことができます。

しかし、アルゴリズムがそれらの特徴のセットを選択している場合、それらは分類タスクにとって最も意味があるように見えます。

matlab - サブセット選択方法によってこのデータセットで選択されるフィーチャが少なすぎる理由

1 に答える 1

Related

Reference