r - R ランダムフォレスト変数の重要性

Question

Rでの分類にランダムフォレストパッケージを使用しようとしています.

リストされている可変重要度メジャーは次のとおりです。

クラス 0 の変数 x の生の重要度スコアの平均
クラス 1 の変数 x の生の重要度スコアの平均
MeanDecreaseAccuracy
MeanDecreaseGini

今、私はそれらの定義を知っているように、これらの「意味」を知っています。私が知りたいのは、それらの使い方です。

私が本当に知りたいのは、これらの値がどれほど正確であるか、良い値とは何か、悪い値とは何か、最大値と最小値などのコンテキストでのみ、これらの値が何を意味するかです.

変数の値が高い場合、それは重要か重要でないかMeanDecreaseAccuracy? MeanDecreaseGiniまた、生のスコアに関する情報も役立ちます。それらの適用に関連するこれらの数値について知っておくべきことをすべて知りたい.

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダムフォレストがどのように機能するかについての議論を含まない単純な説明よりも役に立ちません。

ラジオの使い方を誰かに説明してほしいと思ったとしても、ラジオが電波を音に変換する仕組みが説明されているとは思いません。

score 28 · Accepted Answer

「エラー」、「合計」、または「置換」という言葉を使用する説明は、ランダムフォレストの仕組みに関する議論を含まない単純な説明よりも役に立ちません。

ラジオの使い方を誰かに説明してほしいと思ったとしても、ラジオが電波を音に変換する仕組みが説明されているとは思いません。

WKRP 100.5 FM の数値が何を意味するかを、波の周波数の厄介な技術的詳細に立ち入ることなく、どのように説明しますか? 率直に言って、いくつかの技術用語を理解していても、ランダムフォレストのパラメーターと関連するパフォーマンスの問題を理解するのは困難です。

ここにいくつかの答えがあります：

- クラス 0 の変数 x の生の重要度スコアの平均

- クラス 1 の変数 x の生の重要度スコアの平均

ランダムフォレストのWeb ページから単純化すると、未加工の重要度スコアは、特定の予測変数がデータを正常に分類する上でランダムよりもどれだけ役立つかを測定します。

-MeanDecreaseAccuracy

これはR モジュールにのみあると思います。モデルにこの予測子を含めると、分類エラーがどれだけ減少するかを測定できると思います。

-MeanDecreaseGini

ジニは、社会の所得分配を記述する際に使用される場合は「不公平」と定義され、ツリーベースの分類では「ノードの不純物」の尺度と定義されます。Gini が低い (つまり、Gini の減少が大きい) ということは、特定の予測変数が、データを定義済みのクラスに分割する際により大きな役割を果たしていることを意味します。分類ツリーのデータが予測子の値に基づいて個々のノードで分割されるという事実を話さずに説明するのは困難です。これがどのようにパフォーマンスの向上につながるかはよくわかりません。

score 24 · Accepted Answer

差し迫った懸念事項：値が高いほど、変数がより重要であることを意味します。これは、あなたが言及するすべての対策に当てはまるはずです。

ランダムフォレストはかなり複雑なモデルを提供するため、重要度の測定値を解釈するのは難しい場合があります。変数が何をしているのかを簡単に理解したい場合は、RFを使用しないでください。代わりに、線形モデルまたは（非アンサンブル）決定木を使用してください。

あなたが言った：

「エラー」、「合計」、または「並べ替え」という単語を使用する説明は、ランダムフォレストがどのように機能するかについての説明を含まない単純な説明よりも役に立ちません。

ランダムフォレストについて掘り下げて学ばない限り、上記よりもはるかに多くのことを説明するのは非常に難しいでしょう。私はあなたがマニュアル、またはブレイマンのマニュアルのセクションのいずれかについて不平を言っていると思います：

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

変数がどれほど重要であるかを理解するために、彼らはそれをランダムなジャンクで埋め（「並べ替え」）、次に予測精度がどれだけ低下するかを確認します。MeanDecreaseAccuracyとMeanDecreaseGiniはこのように機能します。生の重要度スコアが何であるかわかりません。

score 6 · Accepted Answer

解釈可能性は、ランダムフォレストではちょっと難しいです。RF は非常に堅牢な分類器ですが、その予測は民主的に行われます。これは、変数のランダムなサブセットとデータのランダムなサブセットを取得してツリーを構築することにより、数百または数千のツリーを構築することを意味します。次に、選択されていないすべてのデータの予測を行い、予測を保存します。データセットの気まぐれをうまく処理するため、堅牢です (つまり、ランダムな高値/低値、偶然のプロット/サンプル、同じものを 4 つの異なる方法で測定するなど) を平滑化します)。ただし、相関性の高い変数がいくつかある場合、両方が常に各モデルに含まれているとは限らないため、両方が重要に見える場合があります。

ランダムフォレストを使用した潜在的なアプローチの 1 つは、予測変数を減らしてから通常の CART に切り替えるか、推論ベースのツリーモデルの PARTY パッケージを試すことです。ただし、データマイニングの問題やパラメーターに関する推論には注意が必要です。

r - R ランダム フォレスト変数の重要性

3 に答える 3

Related

Reference

r - R ランダムフォレスト変数の重要性