APIがないため、Webから一部のデータをクロールします。残念ながら、それはいくつかの異なるサイトからの非常に多くのデータであり、私はすぐに私が同じサイトに数千のリクエストを短時間で行うことができないことを学びました...私はできるだけ早くデータにアプローチしたいのですが、私はしませんDOS攻撃を引き起こしたくない:)
問題は、サーバーごとに機能が異なり、事前にそれらを知らないことです。サイトは私のクライアントに属しているので、私の意図は、スクリプトによって引き起こされる可能性のあるダウンタイムを防ぐことです。したがって、「最初に100万件のリクエストを試行し、失敗した場合は50万件を試行し、失敗した場合は... 」のようなポリシーはありません:)
これに関するベストプラクティスはありますか?Googleのクローラーは、同じサイトに対して同じ間に実行できるリクエストの数をどのように知るのでしょうか。たぶん、彼らは「プレイリストをシャッフル」するので、単一のサイトへの同時リクエストはそれほど多くありません。どういうわけかHTTP経由でこのようなものを検出できますか?単一の要求を待ち、応答時間を数え、サーバーのバランスがどれほど良いかを概算してから、どういうわけか同時要求の最大数を構成しますか?
私はPythonスクリプトを使用していますが、これは答えにはあまり関係ありません。潜在的なコードスニペットをどの言語で使用したいかをお知らせするためです。