scikit-learn - 分類のための重要な特徴を見つける

Question

ロジスティック回帰モデルを使用していくつかの EEG データを分類しようとしています (これは私のデータの最良の分類を与えるようです)。私が持っているデータはマルチチャンネル EEG セットアップからのものであるため、本質的には 63 x 116 x 50 のマトリックスがあります (つまり、チャンネル x 時点 x 試行回数 (50 の試行タイプが 2 つあります))。試行ごとに 1 つの長いベクトル。

私がやりたいのは、分類の後で、どの機能が試験の分類に最も役立つかを確認することです。どうすればそれを行うことができ、これらの機能の重要性をテストすることは可能ですか? たとえば、分類は主に N 機能によって駆動され、これらは機能 x から z であると言えます。したがって、たとえば、時点 90 ～ 95 のチャネル 10 が分類にとって重要または重要であると言えます。

これは可能ですか、それとも間違った質問をしていますか?

コメントや論文の参照は大歓迎です。

score 39 · Accepted Answer

scikit-learn には、機能ランキングのためのかなりの数のメソッドが含まれています。

一変量機能選択 ( http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html )
再帰的な機能の削除 ( http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html )
ランダム化されたロジスティック回帰/安定性の選択 ( http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html )

(詳細はhttp://scikit-learn.org/stable/modules/feature_selection.htmlを参照)

その中でも、Randomized Logistic Regression を試してみることを強くお勧めします。私の経験では、一貫して他の方法よりも優れており、非常に安定しています。これに関する論文: http://arxiv.org/pdf/0809.2932v2.pdf

編集: さまざまな機能選択方法とその長所と短所に関する一連のブログ投稿を書きました。これは、この質問にさらに詳しく答えるのにおそらく役立つでしょう。

scikit-learn - 分類のための重要な特徴を見つける

1 に答える 1

Related

Reference