0

yahoo検索結果をスクレイピングしていますが、 502 => Net::HTTPBadGateway. エラーの原因は正確には何ですか?yahooそれは私のボットを検出し、私の IP を禁止したということですか?

4

2 に答える 2

0

Response オブジェクトをコンソールに出力します (これには awesome_print をお勧めします)。

しかし.... 検索エンジンがクローラーをパケット化、抑制、またはブロックするのは完全に日常的です。ヤフーがそうするかどうかはわからないが、グーグルは確かにそうしている

代わりにhttp://commoncrawl.orgを検討できます

于 2012-08-02T11:33:54.820 に答える
0

はい、彼らはあなたのボットをブロックしています。すべての大手検索エンジンには、結果ページのスクレイピングを防ぐための防御策があります. ただし、Google と Bing はどちらも、ボットにフィードするために使用できる無料の検索 API を提供しています。

于 2012-08-02T18:35:05.330 に答える