web-crawler - Google クローラーが CAPTCHA でブロックされないのはなぜですか?

Question

特定の Web サイトでクローラーを実行していますwww.example.com。クローラーは、最大 100 件のエントリの後、CAPTCHA によってブロックされます。一方、Google に入力して検索するsite:www.example.comと、100,000 件の結果が見つかり、結果は Google によって正しくキャッシュされます。

私の質問: Google ボットがブロックされていないのに、私がブロックされているのはなぜですか? Google が使用する何千もの個別の IP が原因なのか、それとも何か別のトリックがあるのでしょうか?

score 0 · Accepted Answer

一般に、サイト所有者は検索エンジンからトラフィックを獲得することに関心があるため、Google をホワイトリストに登録することさえあります。

ところで、クエリ間にタイムアウトを使用していますか? 頻繁にクエリを実行すると、サーバーに過度の負荷がかかるため、ブロックされる可能性があります。

web-crawler - Google クローラーが CAPTCHA でブロックされないのはなぜですか?

1 に答える 1

Related

Reference