8

キャッシュとインデックス作成が必要な Web サイトのサイトマップからすべてのページを要求する単純な Web クローラーがあります。いくつかの要求の後、Web サイトは空白ページの提供を開始します。

彼らのサイトマップへのリンク以外には何もないrobots.txtので、私は彼らの「規則」に違反していないと思います. 私の意図に正確にリンクする説明的なヘッダーがあり、クロールするページはサイトマップからのものだけです.

http ステータス コードはすべて問題ないので、短期間に多数の http リクエストを阻止しているとしか思えません。リクエスト間の妥当な遅延とはどのくらいですか?

この問題を引き起こす可能性のある、私が見落とした他の考慮事項はありますか?

4

2 に答える 2

9

サイトごとに、検索するクローラーと不正使用の特性が異なります。

クローラーの鍵は、人間の活動をエミュレートし、robots.txtに従うことです。

徹底的なクロールは一部のWebサイトをトリップし、移動速度に関係なくシャットダウンしますが、一部のホストはクローラーが一気にすべてを吸い上げてしまうことを気にしません。

  • 一般に、1分あたり6(人間の速度について)よりも速くページを要求することは望ましくありません。
  • Webページに表示される順序でリンクをたどる方が安全です。
  • Webページに表示されていないリンクは無視してください(多くの人がハニーポットを使用しています)。

他のすべてが失敗した場合は、1分あたり1ページより速くリクエストしないでください。ウェブサイトがこのレートであなたをブロックしている場合は、直接彼らに連絡してください-彼らは明らかにあなたが彼らのコンテンツをそのように使用することを望んでいません。

于 2009-04-28T16:12:02.110 に答える
2

ウィキペディアにはこのトピックに関するまともなリファレンスがあると思います。それらに従ってください、そして、礼儀のために、もう少し。

たとえば、接続速度を1秒あたり1ヒットで最大にするか、不注意によるDoS攻撃のリスクを冒すことになります。

于 2009-04-28T16:15:55.690 に答える