machine-learning - 特定の予測に対するロジスティック回帰の特徴の相対的な重要性を取得するにはどうすればよいですか?

Question

二項分類の問題に (scikit で) ロジスティック回帰を使用しており、個々の予測を説明できることに興味があります。より正確には、陽性クラスの確率を予測し、その予測に対する各機能の重要性を測定することに関心があります。

係数 (ベータ) を重要度の尺度として使用することは、ここで回答したように一般的には悪い考えですが、私はまだ良い代替手段を見つけていません。

これまでのところ、私が見つけた最高のものは次の3つのオプションです。

モンテカルロオプション: 他のすべての機能を修正し、評価する機能をトレーニングセットからのランダムサンプルに置き換えて予測を再実行します。これを何度も行います。これにより、陽性クラスのベースライン確率が確立されます。次に、元の実行の陽性クラスの確率と比較します。違いは、機能の重要度の尺度です。
「Leave-one-out」分類子:機能の重要性を評価するには、最初にすべての機能を使用するモデルを作成し、次にテスト対象の機能を除くすべての機能を使用する別のモデルを作成します。両方のモデルを使用して新しい観測を予測します。2 つの違いは、機能の重要性です。
調整済みベータ:この回答に基づいて、 「その係数の大きさにデータ内の対応するパラメーターの標準偏差を掛けた値」によって特徴の重要性をランク付けします。

すべてのオプション (ベータ版、モンテカルロ、および「Leave-one-out」を使用) は、私には貧弱なソリューションのように思えます。

実際の質問:線形分類子を使用して、意思決定の瞬間に各機能の重要性を解釈する最良の方法は何ですか?

クイックノート #1: ランダムフォレストの場合、これは些細なことです。このブログ投稿prediction + biasで美しく説明されているように、単純に分解を使用できます。ここでの問題は、ロジスティック回帰などの線形分類器で同様のことを行う方法です。

簡単なメモ #2: stackoverflow には関連する質問が多数あります ( 1 2 3 4 5 )。この特定の質問に対する答えを見つけることができませんでした。

2 に答える 2