1

148 個の入力フィーチャを含む分類データセットがあります (そのうち 20 個はバイナリで、残りは [0,1] の範囲で連続しています)。データセットには 66171 の負の例と 71 の正の例しかありません。

データセット (arffテキスト ファイル) は、次のドロップボックス リンクからダウンロードできます: https://dl.dropboxusercontent.com/u/26064635/SDataset.arff

Weka スイートで and を使用するCfsSubsetEvalGreedyStepwise( と をsetSearchBackwards()セットしtruefalse)、選択した機能セットには 2 つの機能 (つまり79140) しか含まれません! この 2 つの特徴による分類性能が非常に悪いことは言うまでもありません。

(Wekaでも)使用ConsistencySubsetEvalすると、ZERO機能の選択につながります!代わりに特徴ランキング方式を使用し、最良の (たとえば 12) 特徴を選択すると、はるかに優れた分類パフォーマンスが達成されます。

2 つの質問があります。

まず、そのようないくつかの機能の選択につながるデータセットについてはどうですか? 正例と負例の数のバランスが悪いからでしょうか。

2番目に、そしてもっと重要なことに、私が試すことができ、より多くの機能の選択につながる可能性のある他のサブセット選択方法(Matlabまたはその他)はありますか?

4

1 に答える 1

0

明らかに、クラスの不均衡は役に立ちません。より良い診断のために、データセットのサブサンプルを取得することを試みることができます。SpreadSubsample フィルターを使用すると、10:1、3:1、または適切と思われるものなど、許容されるクラスの不均衡の最大値を示すことができます。

選択方法については、まず WEKA で PCA などの次元削減方法を試すことができます。

しかし、アルゴリズムがそれらの特徴のセットを選択している場合、それらは分類タスクにとって最も意味があるように見えます。

于 2015-09-15T12:24:06.087 に答える