web-crawler - Web クローラー http 要求の適切なエチケット

Question

キャッシュとインデックス作成が必要な Web サイトのサイトマップからすべてのページを要求する単純な Web クローラーがあります。いくつかの要求の後、Web サイトは空白ページの提供を開始します。

彼らのサイトマップへのリンク以外には何もないrobots.txtので、私は彼らの「規則」に違反していないと思います. 私の意図に正確にリンクする説明的なヘッダーがあり、クロールするページはサイトマップからのものだけです.

http ステータスコードはすべて問題ないので、短期間に多数の http リクエストを阻止しているとしか思えません。リクエスト間の妥当な遅延とはどのくらいですか?

この問題を引き起こす可能性のある、私が見落とした他の考慮事項はありますか?

score 9 · Accepted Answer

サイトごとに、検索するクローラーと不正使用の特性が異なります。

クローラーの鍵は、人間の活動をエミュレートし、robots.txtに従うことです。

徹底的なクロールは一部のWebサイトをトリップし、移動速度に関係なくシャットダウンしますが、一部のホストはクローラーが一気にすべてを吸い上げてしまうことを気にしません。

他のすべてが失敗した場合は、1分あたり1ページより速くリクエストしないでください。ウェブサイトがこのレートであなたをブロックしている場合は、直接彼らに連絡してください-彼らは明らかにあなたが彼らのコンテンツをそのように使用することを望んでいません。

score 2 · Accepted Answer

ウィキペディアにはこのトピックに関するまともなリファレンスがあると思います。それらに従ってください、そして、礼儀のために、もう少し。

たとえば、接続速度を1秒あたり1ヒットで最大にするか、不注意によるDoS攻撃のリスクを冒すことになります。

2 に答える 2