security - 行儀の良いボットをブロックせずに Web スクレイピングをブロックするにはどうすればよいですか?

Question

製品の大規模なデータベースを備えた e コマース Web サイトを構築しています。もちろん、Goggle が Web サイトのすべての製品をインデックスに登録すると便利です。しかし、競合他社が Web サイトをWeb Scrapeして、すべての画像と製品の説明を取得したいと考えている場合はどうでしょうか?

同様の製品リストを持ついくつかのWebサイトを観察していましたが、CAPTCHAを配置しているため、「人間のみ」が製品リストを読み取ることができます. 欠点は... Google、Yahoo、またはその他の「行儀の良い」ボットには見えないことです。

score 2 · Accepted Answer

Google や他のユーザーが使用している IP アドレスは、(コマンドラインまたは Web サイトで) whois を使用して訪問者の IP を確認することで確認できます。次に、正規の検索エンジンを蓄積したら、CAPTCHA なしでそれらを製品リストに追加します。

score 1 · Accepted Answer

潜在的なスクリーンスケーピングアプリケーションは、ヘッダー内のユーザーエージェントと HTTP リファラー (画像用) を偽装し、人間のブラウザーと同様のタイムスケジュールを使用する可能性があるため、プロのスクレイパーを完全に停止することはできません。それでも、これらのことをチェックして、カジュアルなスクレイピングを防ぐことができます. 私は個人的に、サイトにサインアップする以外に、Captcha が煩わしいと感じています。

score 0 · Accepted Answer

試すことができる手法の1つは、「ハニーポット」方式です。これは、ログファイルをマイニングするか、簡単なスクリプトを使用して行うことができます。

基本的なプロセスは、非常に短時間で2つ以上の無関係な製品を調べるIPアドレスを探すことによって、スクレーパーIPの独自の「ブラックリスト」を作成することです。これらのIPはマシンに属している可能性があります。次に、それらを逆引き参照して、それらが良い（GoogleBotやSlurpなど）か悪いかを判断できます。

score 0 · Accepted Answer

ウェブスクレイパーをブロックするのは簡単ではなく、誤検知を回避しようとするのはさらに困難です。

とにかく、ネットレンジをホワイトリストに追加して、それらにキャプチャを提供しないようにすることができます。Bing、Googlebot、Yahoo などのよく知られているすべてのクローラーは、クロール時に常に特定のネット範囲を使用し、これらすべての IP アドレスは特定の逆引き参照に解決されます。

いくつかの例:

Google IP 66.249.65.32 は、crawl-66-249-65-32.googlebot.com に解決されます

Bing IP 157.55.39.139 は msnbot-157-55-39-139.search.msn.com に解決されます

Yahoo IP 74.6.254.109 は h049.crawl.yahoo.net に解決されます

' *.googlebot.com '、' *.search.msn.com '、および ' *.crawl.yahoo.net ' のアドレスをホワイトリストに登録する必要があるとしましょう。

インターネット上で実装できるホワイトリストはたくさんあります。

とは言うものの、 deathbycaptcha.comや2captcha.comなどのサービスはあらゆる種類のキャプチャを数秒以内に解決すると約束しているため、Captcha が高度なスクレイパーに対するソリューションであるとは思えません。

私たちの wiki http://www.scrapesentry.com/scraping-wiki/をご覧ください。Web スクレイパーを防止、検出、ブロックする方法について多くの記事を書いています。

score -1 · Accepted Answer

単純化しすぎているかもしれませんが、サーバーのパフォーマンスが懸念される場合は、APIを提供することでスクレーパーの必要性が減り、帯域/幅のプロセッサー時間が節約されます。

ここにリストされている他の考え：

http://blog.screen-scraper.com/2009/08/17/further-thoughts-on-hindering-screen-scraping/

security - 行儀の良いボットをブロックせずに Web スクレイピングをブロックするにはどうすればよいですか?

6 に答える 6

Related

Reference