2

私はばかげた混乱を持っていますが、それは私をとても悩ませています。スパム検出のためにANNを作成する必要があります。これまで、メールのtfidfベクトルを開発し、その行列のPCAを個別に計算するためのモジュールを開発してきました。問題は、私のメールが受信トレイから直接読み取られていることです。トレーニングでは、スパムボックスを使用してから、未読メールのベクターを作成するために使用されたものと同じクラスを使用することを望んでいましたが、スパムとしてラベルを付けるにはどうすればよいですか?

私はこのようなものを開発する必要があります

   HashMap<HashMap<String,Double>,Integer> trainingSet;

最初の引数は、PCAを介して次元削減されたmailVectorであり、整数はラベル1-スパムおよび非スパムの場合は0であり、ベクトルをファイルに書き込んでそれらから読み取りますか?または、コードを柔軟にして、現在の受信トレイから直接読み取るのではなく、既存のハムとスパムのセットからオンラインで読み取り、それらをメールオブジェクトとしてモデル化する必要があります[件名などのメンバーを定義するMailMessageクラスがあります、本文、メールベクトルなどのメールを作成し、これを使用して用語インデックスを作成し、最後にベクトルを作成します]、ベクトルを作成し、トレーニングセットを作成します。トレーニング後、受信トレイを読み取らせることができますか?

任意の洞察をいただければ幸いです!

4

1 に答える 1

0

私はあなたに正直になるつもりです。率直に言って、英語にはそれほど多くの単語はありません。入力ベクトルが非常に大きい場合 (数万など)、おそらく最も効果的なパフォーマンスが得られます。実際、隠れ層がなくても購入できる場合があります。

画像認識などでは、数千点の入力ベクトルを持つことは珍しくありません。

于 2013-02-11T18:14:44.540 に答える