私のサイトは大きくなり、さまざまなチャネルを通じて大量のスパムを引き付け始めています。このサイトには、さまざまな種類の UGC (プロフィール、フォーラム、ブログ コメント、ステータス更新、プライベート メッセージなど) があります。私はさまざまな緩和の取り組みを進めており、これを電撃的な方法で展開して、スパマーに私たちが価値のある標的ではないことを納得させたいと考えています. 私は自分が行っている機能に大きな自信を持っていますが、1 つ欠けているのは、古いスパムをすべて一度に殺してしまうことです。
ここに私が持っているものがあります:
- 大きな良い/悪いコーパス(5 桁の悪い、6 または 7 桁の良い)。多くのスパムには非常に信頼性の高いフィンガープリントが含まれており、6 か月間無視してきたという事実が役に立ちます :)
- AWS にデプロイされた大規模なモジュラー Rails サイト。トラフィック量の多いサイトではありませんが、SOA の始まりで 8 つのインスタンスを実行しています。
- Ruby、Redis、Resque、MySQL、Varnish、Nginx、Unicorn、Chef、すべて Gentoo 上で
私の要件:
- データの量を考えると、適度にうまく機能することを望んでいます(したがって、純粋なルビーソリューションには警戒しています)。
- 複数の分類をさまざまな種類のコンテンツにトレーニングできるはずです (419 詐欺とボットネット リンク スパム)。
- 独自の調査作業 (パターン マッチング、IP の再利用など) に基づいて、手動の要素を追加できるようにしたいと考えています。
- 最終的には、Ruby で使用するための優れたインターフェイスを構築したいと考えています。これが C などで手を汚す必要がある場合は、処理できますが、可能であれば回避します。
これは長くて漠然とした質問だと思いますが、私が探しているのは主に優れたパッケージのリストであり、次に、同様のシステムを構築した人からのアプローチ方法についてのランダムな考えです。