9

非常に小さなデータセットに RandomForests を適用することは可能ですか? 多くの変数を持つデータセットがありますが、それぞれ 25 個の観測しかありません。ランダム フォレストでは、OOB エラーが少なく (10 ~ 25%)、妥当な結果が得られます。使用する観測の最小数に関する経験則はありますか? 実際、応答変数の 1 つが不均衡であり、それをサブサンプリングすると、観測数がさらに少なくなります。前もって感謝します

4

1 に答える 1

6

RF は、これらのタイプのデータセット (つまり、p>n) で使用できます。実際、彼らはフィールド数が>= 20000で行数が非常に少ないゲノミクスのような分野でRFを使用しています-たとえば10-12です。全体の問題は、20k 変数のどれが倹約マーカーを構成するかを把握することです (つまり、機能の選択が全体の問題です)。

モデルが保留サンプルでうまく機能しない場合 (またはホールド ワン バック交差検証がうまく機能する可能性がある場合) を除いて、最小サイズに関する ROT はありません。

お役に立てれば

于 2013-08-30T16:07:49.843 に答える