robots.txt
コンテンツを盗み、自分のサイトの帯域幅を消費する、良くないスクレーパー (別名、定義により を無視する悪いボット) を維持したいと考えています。同時に、正当な人間のユーザーのユーザー エクスペリエンスを妨害したり、行儀の良いボット (Googlebot など) によるサイトのインデックス作成を阻止したりしたくありません。
これに対処するための標準的な方法は、すでにここで説明されています。ただし、そのスレッドで提示され、支持されたソリューションは、私が探しているものではありません。
一部の悪意のあるボットは、tor またはボットネットを介して接続します。つまり、それらの IP アドレスは一時的なものであり、侵害されたコンピューターを使用している人間のものである可能性があります。
そのため、IP がブラックリストに登録されている「偽陽性」 (つまり人間) が私の Web サイトに再びアクセスできるようにすることで、業界標準の方法を改善する方法を考えていました。1 つのアイデアは、これらの IP を完全にブロックするのをやめ、代わりに、アクセスを許可する前に CAPTCHA を渡すように要求することです。CAPTCHA は正当なユーザーの PITA であると考えていますが、これらの IP へのアクセスを完全にブロックするよりも、CAPTCHA を使用して疑わしい悪意のあるボットを精査する方が良い解決策のようです. CAPTCHA を完了したユーザーのセッションを追跡することで、そのユーザーが人間であるか (その IP をブラックリストから削除する必要があるか)、または CAPTCHA を解決できるほどスマートなロボットであるかどうかを判断して、さらにブラック リストに載せることができるはずです。
ただし、先に進んでこのアイデアを実装する前に、問題や弱点を予見するかどうか、ここの善良な人々に尋ねたいと思います (一部の CAPTCHA が壊れていることは既に認識していますが、それを処理できると思います)。 .