私は論文プロジェクトの分類子としてランダム フォレスト アルゴリズムを使用しています。トレーニング セットは数千の画像で構成され、画像ごとに約 2000 ピクセルがサンプリングされます。ピクセルごとに、何十万もの機能があります。私の現在のハードウェア制限 (8G RAM、おそらく 16G まで拡張可能) では、1 つの画像のサンプル (つまり、ピクセルあたりの特徴) をメモリに収めることができます。私の質問は次のとおりです。毎回異なる画像のサンプルを使用して train メソッドを複数回呼び出し、呼び出しごとに統計モデルを自動的に更新することは可能ですか? 機能セット全体を使用して完全なトレーニング セットをトレーニングした後、機能の数を数十万から約 2000 に減らし、最も重要なものだけを保持することを考えているため、変数の重要度に特に関心があります。
アドバイスをありがとう、ダニエレ