私はばかげた混乱を持っていますが、それは私をとても悩ませています。スパム検出のためにANNを作成する必要があります。これまで、メールのtfidfベクトルを開発し、その行列のPCAを個別に計算するためのモジュールを開発してきました。問題は、私のメールが受信トレイから直接読み取られていることです。トレーニングでは、スパムボックスを使用してから、未読メールのベクターを作成するために使用されたものと同じクラスを使用することを望んでいましたが、スパムとしてラベルを付けるにはどうすればよいですか?
私はこのようなものを開発する必要があります
HashMap<HashMap<String,Double>,Integer> trainingSet;
最初の引数は、PCAを介して次元削減されたmailVectorであり、整数はラベル1-スパムおよび非スパムの場合は0であり、ベクトルをファイルに書き込んでそれらから読み取りますか?または、コードを柔軟にして、現在の受信トレイから直接読み取るのではなく、既存のハムとスパムのセットからオンラインで読み取り、それらをメールオブジェクトとしてモデル化する必要があります[件名などのメンバーを定義するMailMessageクラスがあります、本文、メールベクトルなどのメールを作成し、これを使用して用語インデックスを作成し、最後にベクトルを作成します]、ベクトルを作成し、トレーニングセットを作成します。トレーニング後、受信トレイを読み取らせることができますか?
任意の洞察をいただければ幸いです!