python - リスト内の URL が増えると、Import.io の一括抽出が遅くなる

Question

たとえば、50 個の URL でうまく機能する Import.io 一括抽出をセットアップしました。文字通り、それらすべてを数秒で通過します。しかし、40,000 個の URL を抽出しようとすると、エクストラクタは最初の 1000 程度までは非常に高速に起動し、その後は URL が増えるたびに徐々に遅くなり続けます。5,000 までに、文字どおり URL ごとに約 4 ～ 5 秒かかります。

効果があると思われる解決策の 1 つは、一度に 1,000 個の URL のチャンクに分割し、それぞれを個別に一括抽出することです。ただし、これには非常に時間がかかり、最後にすべてのデータをつなぎ合わせる必要があります。

誰かがこれを経験したことがありますか? もしそうなら、より洗練された解決策がありますか?

ありがとう、マイク

score 4 · Accepted Answer

少し洗練されていない解決策の 1 つは、クローラーを作成することです。実行する前に、「クロールを開始する場所」ボックスに 10,000 個の URL を挿入します。

詳細オプションで、クロールの深さをゼロに設定すると、クロールを開始する場所の入力ボックスに入力したページのみが取得されます。

これでうまくいくはずです。さらに、カウラーには、ページ間の待機や同時ページなどの他のオプションがたくさんあります。

python - リスト内の URL が増えると、Import.io の一括抽出が遅くなる

2 に答える 2

Related

Reference