7

簡単なスパム フィルタを作成する必要があり、どうすればよいかよくわかりません。

これまでのところ、特定のしきい値までポイントを付与または削除する単語リストとドメイン フィルタリングを考え出しました。

たとえば、ブラックリストに登録されたドメインから「v1agr4」について書いている場合、スパムで 2 ポイントほど獲得できますが、hotmail.com アカウントから「v1agr4」について書いている場合は、1 ポイントしか獲得できません。 「スパムポイント」。

他に提案やリソースはありますか?

これは、エンタープライズ レベルの何かを開発するというよりも、スパム フィルターを学習することに関するものです。

4

6 に答える 6

3

ここにいくつかの本当に良いアルゴリズム情報があります:

http://www.paulgraham.com/spam.html

http://www.paulgraham.com/better.html

しかし、真剣に、なぜ車輪を再発明するのでしょうか?

K9 をダウンロードするだけです: http://keir.net/k9.html

于 2008-11-17T19:30:21.503 に答える
3

Bayesian Spam Filtering に関連するいくつかのオープンソース Java プロジェクト (LFSR Consulting によって言及されました):

そして、C++ 用にもう 1 つ追加します。

于 2008-11-18T11:50:51.663 に答える
1

Bayesian Spam Filteringを調べてください。

perl にはそのためのライブラリがあることは知っているので、java にもライブラリがあると思います。

于 2008-11-17T19:31:20.677 に答える
0

スパム フィルターの作成は、スケーラビリティに対する要求によって異なります。

スケーラブルなソリューションが必要な場合、コンテンツ フィルタリングは、CPU とメモリを大量に消費するため、賢明な選択ではない可能性があります。代わりに、レピュテーション ベースのフィルタリングまたはブラックリスト ベースのフィルタリングを選択することをお勧めします。サーバー上だけでなく、はるかに簡単に記述できます。

私は自分のブログに、スパム フィルターを作成する背後にあるアイデアをプログラマーの観点から説明し、コンテンツ ベースのフィルター処理からブラック リスト ベースのフィルター処理までのすべてのオプションをカバーする投稿を書きました。

于 2016-07-02T13:00:00.923 に答える
0

私はすべての機能を備えたものを書きました。

于 2008-11-17T20:58:29.983 に答える
0

それを分散サービスに委任できます。Akismetは非常に優れたソリューションです。

于 2008-11-18T12:57:23.497 に答える