アフィリエイトプログラムを運営しています。サインアップしたユーザーは、他のユーザーの募集に成功するとポイントを獲得できます。しかし、スパマーはこのプログラムを悪用し、多数のアカウントを自動的に登録しています。明らかに機械で生成されたアカウントを閉鎖することで、これを防ぎたいと考えています。これに対する私の考えは、機械で生成されたアカウント名を識別するプログラムを作成するか、少なくとも手動で検査するサブセットを選択することです。
これまでのところ、2 種類の異常な ID があることがわかりました。
1 つ目は、次のように、いくつかの ID が他の ID と非常によく似ていることです。
- wss12345
- wss12346
- wss12347
- テスト1
- テスト2
- ...
2 つ目は、次のように、ルールなしでランダムに生成されたように見える ID がいくつかあることです。
- MiDjiSxxxDekiE
- ニムジクジクスリー
- DAFDAB7643
- ...
1 つ目は、レーベンシュタイン (編集) 距離を使用します。このメソッドは、タイプ 1 で説明したいくつかの ID を見つけることができます (私はこれを行い、良好なパフォーマンスを得ることができます)。
2 つ目は、次のように ID の確率を計算できます。
id = "DAFDAB7643:
p(id) = p(D)*p(A|D)*p(F|A)*p(D|F)*...*p(3|4)
そのため、確率を使用して異常な ID を除外できます。(あくまで想像ですので、試していません。)
このトピックについて他の提案をしてくれる人はいますか? 他にどのようにこの問題に取り組むことができますか? 私の試みに欠陥や脱落が見られますか?