ウェブスクレイパーをブロックするのは簡単ではなく、誤検知を回避しようとするのはさらに困難です。
とにかく、ネットレンジをホワイトリストに追加して、それらにキャプチャを提供しないようにすることができます。Bing、Googlebot、Yahoo などのよく知られているすべてのクローラーは、クロール時に常に特定のネット範囲を使用し、これらすべての IP アドレスは特定の逆引き参照に解決されます。
いくつかの例:
Google IP 66.249.65.32 は、crawl-66-249-65-32.googlebot.com に解決されます
Bing IP 157.55.39.139 は msnbot-157-55-39-139.search.msn.com に解決されます
Yahoo IP 74.6.254.109 は h049.crawl.yahoo.net に解決されます
' *.googlebot.com '、' *.search.msn.com '、および ' *.crawl.yahoo.net ' のアドレスをホワイトリストに登録する必要があるとしましょう。
インターネット上で実装できるホワイト リストはたくさんあります。
とは言うものの、 deathbycaptcha.comや2captcha.comなどのサービスはあらゆる種類のキャプチャを数秒以内に解決すると約束しているため、Captcha が高度なスクレイパーに対するソリューションであるとは思えません。
私たちの wiki http://www.scrapesentry.com/scraping-wiki/をご覧ください。Web スクレイパーを防止、検出、ブロックする方法について多くの記事を書いています。