python - Web Scraper: 単一ドメインでの 1 分/1 時間あたりのリクエスト数を制限しますか?

Question

私は図書館員と協力して、彼の組織のデジタル写真アーカイブを再構築しています。

MechanizeとBeautifulSoupを使用して Python ロボットを構築し、コレクションから約 7000 の構造化が不十分で軽度の不正確/不完全なドキュメントを取得しました。データは、修正に使用できるスプレッドシート用にフォーマットされます。現在、検索ディクショナリを作成してデータを収集するために合計 7,500 件の HTTP リクエストが必要であると推測しています。ただし、コードの間違いややり直しはカウントされません。プロジェクトが進行するにつれて、さらに多くのリクエストが発生します。

これらのリクエストをどれだけ迅速に行うことができるかについては、ある種の組み込みの制限があると思います。たとえそれがなくても、負荷の高い Web サーバーで丁寧に振る舞うためにロボットに遅延を与えます。私の質問 (完全に正確に回答することは不可能であることは間違いありません) は、組み込みのレート制限に遭遇する前に HTTP リクエストをどれだけ迅速に行うことができるかということです。

スクレイピングしているドメインの URL を公開したくないのですが、関連性がある場合は、共有してもよいか友人に尋ねます。

注: これが私たちの問題 (データベースの再構築/整理) を解決するための最良の方法ではないことは理解していますが、データベースのコピーで私の友人を信頼するように上層部を説得するための概念実証を構築しています。から、彼は私がデータを直接操作できるようにするために必要な官僚機構をナビゲートします。

彼らは ATOM フィード用の API も提供してくれましたが、検索にはキーワードが必要で、特定のコレクション内のすべての写真をステップスルーするタスクには役に立たないようです。

score 4 · Accepted Answer

HTTP には組み込みのレート制限はありません。ほとんどの一般的な Web サーバーは、そのままではレート制限が設定されていません。レート制限が設定されている場合、ほぼ確実に Web サイトの管理者によって設定されているため、管理者に何を構成したかを尋ねる必要があります。

一部の検索エンジンは、速度制限を示唆する非標準の robots.txt の拡張子を尊重するため、を確認してCrawl-delayくださいrobots.txt。

HTTP には 2 つの接続の同時接続制限がありますが、ブラウザはすでにそれを無視し始めており、標準のその部分はかなり時代遅れであるため、改訂する取り組みが進行中です。

python - Web Scraper: 単一ドメインでの 1 分/1 時間あたりのリクエスト数を制限しますか?

1 に答える 1

Related

Reference