spam - スパムアーカイブからのスパムメールのテキスト分析

翻译自：https://stackoverflow.com/questions/14735524 2013-02-06T17:48:07.087

107 次

確率的アプローチを使用してスパム対策エンジンを実装しようとしています。最初のステップは、スパムに含まれる単語の種類と頻度を分析して調査することです。そこで、スパムから単語を除外するための非常に単純なプログラムを Java で作成しました。"split("\W")" (\W はスペース) を使用して、テキストファイル全体を行に分割し、行を単語に分割します。

スパムアーカイブをダウンロードし、このアプリケーションを使用してこれらの txt ファイルを簡単に分析またはスキャンできると考えました。しかし、すぐに大きな問題に巻き込まれました。テキストファイルには、HTML タグ、リンク、電子メールのヘッダー、何とか...が含まれています。

今、私はこれに取り組む方法について疑問に思っていますか？HTML パーサーを使用するか、これらのファイルを分析するロジックを強化しますか?

答えは主に、実装段階で同じ問題に直面するかどうかによって異なります。現在のスパムフィルターの機能は何ですか?

spam - スパムアーカイブからのスパムメールのテキスト分析

1 に答える 1

Related

Reference