Wordpress には、Akismet と呼ばれるスパム フィルタリング プラグインがあり、テキストのブロックをスパムかどうかに分類できるようです。唯一の注意点は、インターフェースを通過する必要があり、データベース/アルゴリズムがオープンソースではないか、他の方法ですぐに利用できないことです.
Web アプリケーションでユーザーが送信する電子メール、コメント、またはその他のテキストを分類するための Web アクセス可能な API を提供する商用プロバイダーもあります。
テキストのブロックをスパム/非スパムとして分類できるオープンソースまたは自由にアクセスできるデータベースはありますか?
編集:これが私が欲しいもののより明確な説明です
基本的に、特定のフレーズがスパムである可能性を示す大規模なデータベースがそこにあることを望んでいました. スパマーはすべての電子メール アドレスに均等にスパムを送信するので (私は推測しています)、このデータベースをベイジアン スパム フィルターに事前入力することで、ユーザー トレーニングなしでほとんどのスパムをキャプチャすることから始まるアプリケーションを作成できました。