確率的アプローチを使用してスパム対策エンジンを実装しようとしています。最初のステップは、スパムに含まれる単語の種類と頻度を分析して調査することです。そこで、スパムから単語を除外するための非常に単純なプログラムを Java で作成しました。"split("\W")" (\W はスペース) を使用して、テキスト ファイル全体を行に分割し、行を単語に分割します。
スパム アーカイブをダウンロードし、このアプリケーションを使用してこれらの txt ファイルを簡単に分析またはスキャンできると考えました。しかし、すぐに大きな問題に巻き込まれました。テキスト ファイルには、HTML タグ、リンク、電子メールのヘッダー、何とか...が含まれています。
今、私はこれに取り組む方法について疑問に思っていますか?HTML パーサーを使用するか、これらのファイルを分析するロジックを強化しますか?
答えは主に、実装段階で同じ問題に直面するかどうかによって異なります。現在のスパム フィルターの機能は何ですか?