スパム メッセージを検出するためのバイナリ分類子を作成したいとします。数十億のトレーニング例と約 20 の機能があります。トレーニング済みの分類子をメモリに収めたい (クラウド上で実行し、実際には rpc 呼び出しであるディスク操作は非常に高価になる)。
私の質問は次のとおりです。必要なメモリ量をどのように見積もることができますか? 分類子がランダム フォレストであり、トレーニング セット内の SPAM メッセージの分布について何も知らないとします。
数字のみ: 2 つのクラス、10 億の例、20 の機能。
そのような推定はまったく可能ですか?どうすればそれができますか?