4

robots.txtコンテンツを盗み、自分のサイトの帯域幅を消費する、良くないスクレーパー (別名、定義により を無視する悪いボット) を維持したいと考えています。同時に、正当な人間のユーザーのユーザー エクスペリエンスを妨害したり、行儀の良いボット (Googlebot など) によるサイトのインデックス作成を阻止したりしたくありません。

これに対処するための標準的な方法は、すでにここで説明されています。ただし、そのスレッドで提示され、支持されたソリューションは、私が探しているものではありません。

一部の悪意のあるボットは、tor またはボットネットを介して接続します。つまり、それらの IP アドレスは一時的なものであり、侵害されたコンピューターを使用している人間のものである可能性があります。

そのため、IP がブラックリストに登録されている「偽陽性」 (つまり人間) が私の Web サイトに再びアクセスできるようにすることで、業界標準の方法を改善する方法を考えていました。1 つのアイデアは、これらの IP を完全にブロックするのをやめ、代わりに、アクセスを許可する前に CAPTCHA を渡すように要求することです。CAPTCHA は正当なユーザーの PITA であると考えていますが、これらの IP へのアクセスを完全にブロックするよりも、CAPTCHA を使用して疑わしい悪意のあるボットを精査する方が良い解決策のようです. CAPTCHA を完了したユーザーのセッションを追跡することで、そのユーザーが人間であるか (その IP をブラックリストから削除する必要があるか)、または CAPTCHA を解決できるほどスマートなロボットであるかどうかを判断して、さらにブラック リストに載せることができるはずです。

ただし、先に進んでこのアイデアを実装する前に、問題や弱点を予見するかどうか、ここの善良な人々に尋ねたいと思います (一部の CAPTCHA が壊れていることは既に認識していますが、それを処理できると思います)。 .

4

1 に答える 1

1

私が考える問題は、キャプチャに予見可能な問題があるかどうかです。それについて詳しく説明する前に、キャプチャでボットに挑戦するためにボットを捕まえる方法についても説明したいと思います. TOR とプロキシ ノードは定期的に変更されるため、IP リストを常に更新する必要があります。ベースラインとして適切なプロキシ アドレスのリストにMaxmindを使用できます。すべての TOR ノードのアドレスを更新するサービスも見つけることができます。しかし、すべての悪意のあるボットがこれら 2 つのベクトルから発生するわけではないため、ボットを捕まえる別の方法を見つける必要があります。レート制限とスパム リストを追加すると、悪意のあるボットの 50% 以上に到達するはずです。他の戦術は、サイトに合わせてカスタム構築する必要があります。

それでは、キャプチャの問題について話しましょう。まず、http://deathbycaptcha.com/のようなサービスがあります。それについて詳しく説明する必要があるかどうかはわかりませんが、それはあなたのアプローチを役に立たなくします。Captcha を回避する他の方法の多くは、OCR ソフトウェアを使用しています。CAPTCHA が OCR を打ち負かすほど、ユーザーへの負担は大きくなります。また、多くの Captcha システムでは、クライアント側の Cookie を使用しています。この Cookie は、誰かが一度解決してから、すべてのボットにアップロードできます。最も有名だと思うのは、Karl Groves の Captcha を倒す 28 の方法のリストです。http://www.karlgroves.com/2013/02/09/list-of-resources-breaking-captcha/

完全な開示のために、私はボットをブロックするための SaaS ソリューションであるDistil Networksの共同創設者です。キャプチャを使用して自分で構築するよりも、より洗練されたシステムとして当社のソフトウェアを売り込むことがよくあります。そのため、ソリューションの有効性に関する私の意見は偏っています。

于 2013-11-09T20:42:41.883 に答える