私は図書館員と協力して、彼の組織のデジタル写真アーカイブを再構築しています。
MechanizeとBeautifulSoupを使用して Python ロボットを構築し、コレクションから約 7000 の構造化が不十分で軽度の不正確/不完全なドキュメントを取得しました。データは、修正に使用できるスプレッドシート用にフォーマットされます。現在、検索ディクショナリを作成してデータを収集するために合計 7,500 件の HTTP リクエストが必要であると推測しています。ただし、コードの間違いややり直しはカウントされません。プロジェクトが進行するにつれて、さらに多くのリクエストが発生します。
これらのリクエストをどれだけ迅速に行うことができるかについては、ある種の組み込みの制限があると思います。たとえそれがなくても、負荷の高い Web サーバーで丁寧に振る舞うためにロボットに遅延を与えます。私の質問 (完全に正確に回答することは不可能であることは間違いありません) は、組み込みのレート制限に遭遇する前に HTTP リクエストをどれだけ迅速に行うことができるかということです。
スクレイピングしているドメインの URL を公開したくないのですが、関連性がある場合は、共有してもよいか友人に尋ねます。
注: これが私たちの問題 (データベースの再構築/整理) を解決するための最良の方法ではないことは理解していますが、データベースのコピーで私の友人を信頼するように上層部を説得するための概念実証を構築しています。から、彼は私がデータを直接操作できるようにするために必要な官僚機構をナビゲートします。
彼らは ATOM フィード用の API も提供してくれましたが、検索にはキーワードが必要で、特定のコレクション内のすべての写真をステップスルーするタスクには役に立たないようです。