5

Wordpress には、Akismet と呼ばれるスパム フィルタリング プラグインがあり、テキストのブロックをスパムかどうかに分類できるようです。唯一の注意点は、インターフェースを通過する必要があり、データベース/アルゴリズムがオープンソースではないか、他の方法ですぐに利用できないことです.

Web アプリケーションでユーザーが送信する電子メール、コメント、またはその他のテキストを分類するための Web アクセス可能な API を提供する商用プロバイダーもあります。

テキストのブロックをスパム/非スパムとして分類できるオープンソースまたは自由にアクセスできるデータベースはありますか?

編集:これが私が欲しいもののより明確な説明です

基本的に、特定のフレーズがスパムである可能性を示す大規模なデータベースがそこにあることを望んでいました. スパマーはすべての電子メール アドレスに均等にスパムを送信するので (私は推測しています)、このデータベースをベイジアン スパム フィルターに事前入力することで、ユーザー トレーニングなしでほとんどのスパムをキャプチャすることから始まるアプリケーションを作成できました。

4

3 に答える 3

2

おそらくあなたが探しているものとは正確には異なりますが、MoinMoin Wiki のメンテナーは、Wiki スパムの正規表現の中心的なリストをここに保管しています: http://master.moinmo.in/BadContent

于 2009-07-26T08:29:22.170 に答える
1

コメントに基づく更新:

単純なデータベースではうまくいかないと思います。ほとんどのスパムはアルゴリズムによって生成されます (たとえば、コメント スパムは通常、投稿のコンテンツを組み込みます)。Akismet は、おそらくリンク分析や既知のスパム シグネチャの使用などを組み合わせて実行しますが、公開はしません。

悪いコンテンツではなく良いコンテンツを分類する興味深い AI プロジェクトについて読んだことがあります。また、さまざまなスパム トリガー (ページの読み込み直後の応答の投稿など) に基づいてブログ コメントを分析するSpam Karmaも参照してください。


元の回答 (DNS ブラックリスト):

于 2009-07-26T08:05:28.847 に答える
1

多分これは完全に死んだ質問かもしれませんが、これをチェックしてください: http://www.stopforumspam.com API を使用して、IP または入力されたユーザー名または電子メールを DB に対してチェックします。ただし、タイムアウト パラメータを指定して cURL を使用することをお勧めします。サービスがタイムアウトする場合としない場合があります。

于 2013-08-17T12:54:39.830 に答える