0

スパム メッセージを検出するためのバイナリ分類子を作成したいとします。数十億のトレーニング例と約 20 の機能があります。トレーニング済みの分類子をメモリに収めたい (クラウド上で実行し、実際には rpc 呼び出しであるディスク操作は非常に高価になる)。

私の質問は次のとおりです。必要なメモリ量をどのように見積もることができますか? 分類子がランダム フォレストであり、トレーニング セット内の SPAM メッセージの分布について何も知らないとします。

数字のみ: 2 つのクラス、10 億の例、20 の機能。

そのような推定はまったく可能ですか?どうすればそれができますか?

4

1 に答える 1

2

スパム分類の場合は、単語の出現機能+バイグラム+リンクで発生するドメイン名またはIPアドレス+ヘッダーとSMTPコンテキストから抽出されたものに対して線形分類器を実行する必要があります。

その場合、2 ** 18次元(たとえば、 vowpal wabbitを使用)で機能をハッシュし、機能ごとに8バイトを掛けると、メモリ内に2MBのモデルが作成されます。

于 2012-01-31T18:51:39.767 に答える