キャッシュとインデックス作成が必要な Web サイトのサイトマップからすべてのページを要求する単純な Web クローラーがあります。いくつかの要求の後、Web サイトは空白ページの提供を開始します。
彼らのサイトマップへのリンク以外には何もないrobots.txt
ので、私は彼らの「規則」に違反していないと思います. 私の意図に正確にリンクする説明的なヘッダーがあり、クロールするページはサイトマップからのものだけです.
http ステータス コードはすべて問題ないので、短期間に多数の http リクエストを阻止しているとしか思えません。リクエスト間の妥当な遅延とはどのくらいですか?
この問題を引き起こす可能性のある、私が見落とした他の考慮事項はありますか?