ランダム フォレストを使用して、多数の予測子の重要性 (%IncMSE) を推定しています。その後、1 つを除くすべての予測因子の組み合わせを使用し、それらの重要性を再度計算します。RandomForest は、予測子が 2 つしか使用されていない場合でも理論上は機能しますが、mtry パラメーターが 1 に設定されている場合に意味があるかどうか疑問に思っています。私が正しければ、これは各反復でランダム フォレストがツリーにのみ適合することを意味します。 2 つの予測因子の 1 つ。予測変数が 2 つだけのモデルを作成する必要がある場合、ランダム フォレストは最初の選択肢にはなりませんでしたが、同じ論文で同様のタスクに 2 つの異なる統計を使用することが賢明に聞こえるかどうかはわかりません。2 つの予測変数でもランダム フォレストを使用する必要があると思いますか? それとも別のモデルの方が適切でしょうか? ありがとう
質問する
1717 次
2 に答える
0
あなたが心配するのは正しいと思います。
これらのフォレスト アルゴリズムの一部は、分割を行うために変数が選択された回数と、ツリー内のどの時点であるかを測定することによって機能します。
変数の選択が完全にランダムである場合、この統計は完全に無意味になります。
スクランブリング法 (特徴の値をランダム化し、パフォーマンスの差を計算する) を使用して統計情報を計算する場合、これはそれほど問題にはならないかもしれませんが、見分けるのは困難です。
重要性を評価するため、または少なくとも比較のために、別の方法を使用することをお勧めします。
于 2015-05-19T19:41:24.120 に答える