1

私は人々がテキストを投稿できるサイトを持っています。各投稿は、投稿者の IP と投稿時刻とともにデータベースに保存されます。投稿者がボットやスパマーなどであると判断できた場合、レキャプチャを表示できるようにしたい.

これを行うのに適したアルゴリズムは何ですか? 最も簡単な選択は、事前に決められた期間 (たとえば 1 分間) の投稿数が、選択された制限 (たとえば 10) よりも多いかどうかを分析することです。ただし、これには、複数の人が同じ IP の背後から投稿するという欠点があります。 、またはランダムな頻度間隔を作成するボットでさえ > 期間、またはその期間の制限未満の投稿。

明らかに「正しい」答えはありません。ただし、一部のアルゴリズムは他のアルゴリズムよりも優れているため、最適なアルゴリズムを見つけようとしています。

4

1 に答える 1

1

あなたは制限ベースのアプローチを持ち、ウェブサイト分析をうまく利用することができます。

IPが単一のコンテキストで物事を投稿する回数には制限が必要です。たとえば、StackExchangeの質問(コンテキスト)の場合、私のIPアドレスは(ほとんどの場合)単一の回答(コメントではない)を投稿します。複数の答えは珍しいので、疑わしいです。他のコンテキストでは、StackExchangeコメントなど、頻度は最大数回になる可能性があります。

その場合、1回の訪問でユーザーが費やす時間には制限が必要です。あなたがグーグルウェブサイト分析を使用しているならば、あなたはユーザーがあなたのサイトで費やす平均時間を知っている必要があります。制限時間をそれよりもかなり長くするか、ヒットやトライアルのアプローチなど、考えられるその他の基準を設定します。

また、ブロガーアプローチを使用できますが、わずかな変更があります。各投稿にキャプチャを設定する代わりに、ユーザーがログインするか最初の投稿を行ったときにキャプチャを取得します。その後、一定の時間間隔または彼/彼女によるいくつかの投稿の後にのみキャプチャを設定します。

于 2011-10-20T11:46:56.517 に答える