1

与えられたデータセットで学習し、新しい入力をスパムまたはハムとして予測するナイーブ ベイジアン スパム フィルターを実装しました。 viagra の代わりに v1agra と書いたり、m0rtgage と書いたりした場合のスペルミスの修正 Naive Bayesian はそれを修正する必要があり、確率の計算に問題は生じません。

Java での実装に情報検索技術を組み込むための優れたチュートリアルや作業は、非常に役立ちます。

また、フィルターの有効性を向上させるために使用できる他の手法は何ですか?

前もって感謝します。

4

1 に答える 1

1

あなたが探しているものは単語ステミングと呼ばれます。これは、"walking" と "walked" などの違いを取り除くためによく使用されます (Porter Stemmer は両方の単語を "walk" に変換します)。あなたの場合、スパムノイズの多くを削除するいくつかのルールを設定したいと考えています(アルファベット以外の文字をすべて削除しますか?すべての単語を小文字にするなど)。

于 2012-12-07T02:01:02.697 に答える