私は大規模なデータセットを扱っているので、余分な変数を削除し、ブランチごとに最適な m 変数を調整したいと考えています。R には、rfcv と tuneRF という 2 つのメソッドがあり、これら 2 つのタスクを支援します。それらを組み合わせてパラメータを最適化しようとしています。
rfcv は、おおよそ次のように機能します。
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
run random forest with remaining variables, reporting cverror and predictions
}
現在、rfcv を次のように動作するように再コーディングしました。
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
tune for the best m for reduced variable set;
run random forest with remaining variables, reporting cverror and predictions;
}
もちろん、これにより実行時間が桁違いに増加します。私の質問は、これがどれほど必要か (おもちゃのデータセットを使用してアイデアを得るのが困難でした)、そして他の方法がはるかに短い時間で大まかに機能すると期待できるかどうかです。