8

私は、約 4500 の変数を持つバイナリ クラスのランダム フォレストに取り組んでいます。これらの変数の多くは高度に相関しており、元の変数の分位数にすぎないものもあります。次元削減のために PCA を適用することが賢明かどうかはよくわかりません。これにより、モデルのパフォーマンスが向上しますか?

どの変数が自分のモデルにとってより重要であるかを知りたいのですが、PCA を使用すると、どの PC がより重要であるかしかわかりません。

よろしくお願いします。

4

2 に答える 2

2

ここを見て、より良いアイデアを得ることができます。リンクには、より小さなデータセットには PCA を使用すると書かれています!! 私の同僚の何人かは、ゲノムを扱うときに同じ目的でランダム フォレストを使用しました。それらには、最大 30000 の変数と大量の RAM がありました。

私が見つけたもう1つのことは、ランダムフォレストが大量のメモリを使い果たし、4500の変数があることです. したがって、個々のツリーに PCA を適用できます。

于 2015-08-14T19:22:20.050 に答える