1

製品の大規模なデータベースを備えた e コマース Web サイトを構築しています。もちろん、Goggle が Web サイトのすべての製品をインデックスに登録すると便利です。しかし、競合他社が Web サイトをWeb Scrapeして、すべての画像と製品の説明を取得したいと考えている場合はどうでしょうか?

同様の製品リストを持ついくつかのWebサイトを観察していましたが、CAPTCHAを配置しているため、「人間のみ」が製品リストを読み取ることができます. 欠点は... Google、Yahoo、またはその他の「行儀の良い」ボットには見えないことです。

4

6 に答える 6

2

Google や他のユーザーが使用している IP アドレスは、(コマンド ラインまたは Web サイトで) whois を使用して訪問者の IP を確認することで確認できます。次に、正規の検索エンジンを蓄積したら、CAPTCHA なしでそれらを製品リストに追加します。

于 2009-02-25T21:28:41.277 に答える
1

潜在的なスクリーン スケーピング アプリケーションは、ヘッダー内のユーザー エージェントと HTTP リファラー (画像用) を偽装し、人間のブラウザーと同様のタイム スケジュールを使用する可能性があるため、プロのスクレイパーを完全に停止することはできません。それでも、これらのことをチェックして、カジュアルなスクレイピングを防ぐことができます. 私は個人的に、サイトにサインアップする以外に、Captcha が煩わしいと感じています。

于 2009-02-25T21:30:16.093 に答える
0

試すことができる手法の1つは、「ハニーポット」方式です。これは、ログファイルをマイニングするか、簡単なスクリプトを使用して行うことができます。

基本的なプロセスは、非常に短時間で2つ以上の無関係な製品を調べるIPアドレスを探すことによって、スクレーパーIPの独自の「ブラックリスト」を作成することです。これらのIPはマシンに属している可能性があります。次に、それらを逆引き参照して、それらが良い(GoogleBotやSlurpなど)か悪いかを判断できます。

于 2009-09-16T23:38:27.827 に答える
0

ウェブスクレイパーをブロックするのは簡単ではなく、誤検知を回避しようとするのはさらに困難です。

とにかく、ネットレンジをホワイトリストに追加して、それらにキャプチャを提供しないようにすることができます。Bing、Googlebot、Yahoo などのよく知られているすべてのクローラーは、クロール時に常に特定のネット範囲を使用し、これらすべての IP アドレスは特定の逆引き参照に解決されます。

いくつかの例:

Google IP 66.249.65.32 は、crawl-66-249-65-32.googlebot.com に解決されます

Bing IP 157.55.39.139 は msnbot-157-55-39-139.search.msn.com に解決されます

Yahoo IP 74.6.254.109 は h049.crawl.yahoo.net に解決されます

' *.googlebot.com '、' *.search.msn.com '、および ' *.crawl.yahoo.net ' のアドレスをホワイトリストに登録する必要があるとしましょう。

インターネット上で実装できるホワイト リストはたくさんあります。

とは言うものの、 deathbycaptcha.com2captcha.comなどのサービスはあらゆる種類のキャプチャを数秒以内に解決すると約束しているため、Captcha が高度なスクレイパーに対するソリューションであるとは思えません。

私たちの wiki http://www.scrapesentry.com/scraping-wiki/をご覧ください。Web スクレイパーを防止、検出、ブロックする方法について多くの記事を書いています。

于 2015-03-24T08:54:25.707 に答える
-1

単純化しすぎているかもしれませんが、サーバーのパフォーマンスが懸念される場合は、APIを提供することでスクレーパーの必要性が減り、帯域/幅のプロセッサー時間が節約されます。

ここにリストされている他の考え:

http://blog.screen-scraper.com/2009/08/17/further-thoughts-on-hindering-screen-scraping/

于 2009-09-17T02:17:37.990 に答える