現在、再帰的特徴除去 (RFE) を使用して、非常に高次元のデータセット (p > 200k) のランダム フォレスト分類子を最適化しようとしています。caretパッケージには、これを行うための優れた実装があります ( rfe()関数)。ただし、RAM と CPU の使用量を最適化することも考えています。そのため、最初のフォレストをトレーニングするために異なる (より大きな) 数のツリーを設定し (機能の除去なしで)、その重要性を使用して構築する機会があるかどうか疑問に思います。残りのもの (RFE を使用) は、たとえば 10 倍または 5 倍の交差検証で 500 本の木を使用します。このオプションはvarSelRFで利用できることを知っています..しかし、キャレットはどうですか? マニュアルでこれに関するものを見つけることができませんでした。
2464 次