3

かなり小さなデータセット (つまり、11 変数のうち 28 個の観測値) で 100,000 個の分類木のランダム フォレスト分析を実行しました。

次に、変数の重要度のプロットを作成しました

結果のプロットでは、少なくとも 1 つの重要な変数について、%IncMSE と IncNodePurity の間に実質的な不一致があります。実際、前者では重要度が 7 番目 (つまり、%IncMSE<0) に見える変数ですが、後者では 3 番目です。

この不一致をどのように解釈すればよいか、誰かが教えてくれますか?

問題の変数は、両方のグラフで一貫して 2 番目に表示される他の 1 つの変数と有意に相関しています。これは手がかりになるでしょうか?

4

1 に答える 1

1

最初のグラフは、変数にランダム順列によって値が割り当てられた場合、MSE がどれだけ増加するかを示しています。値が大きいほど、変数の重要度が高くなります。

一方、ノードの純度は、その変数の分割前後の RSS の差であるジニ指数によって測定されます。

変数の重要度の基準の概念が 2 つのケースで異なるため、変数ごとに異なるランキングが得られます。

変数の重要度の「最良の」尺度を選択するための固定基準はありません。それは、直面している問題によって異なります。

于 2015-06-17T06:03:58.313 に答える