0

私はスクレイピーを使用していくつかの大きなブランドをスクレイピングし、サイトの販売データをインポートしています。現在、私は使用しています

DOWNLOAD_DELAY = 1.5

CONCURRENT_REQUESTS_PER_DOMAIN = 16

CONCURRENT_REQUESTS_PER_IP = 16

アイテムローダーを使用して css/xpath ルールを指定し、パイプラインを使用してデータを csv に書き込みます。私が収集するデータは、元の価格、販売価格、色、サイズ、名前、画像の URL、およびブランドです。

私は約 10,000 の URL を持つ 1 つのマーチャントだけのためにスパイダーを作成しましたが、約 4 時間かかりました。

私の質問は、10,000 個の URL に対して 4 時間で十分に聞こえるか、それともそれよりも高速であるべきかということです。もしそうなら、それをスピードアップするために他に何をする必要がありますか。

テストするために、ローカルで SPLASH インスタンスを 1 つだけ使用しています。しかし、本番環境では 3 つの SPLASH インスタンスを使用する予定です。

ここでの主な問題は、約 125 の商人がいて、それぞれ平均 10,000 個の製品を扱っていることです。それらのいくつかには、スクレイピングする必要がある 15 万以上の URL があります。

サイトを更新するために、毎晩すべてのデータをスクレイピングする必要があります。私の 1 つのスパイダーは 10,000 の URL をスクレイピングするのに 4 時間かかるので、毎晩 125 x 10,000 の URL を達成することは有効な夢でさえあるのだろうかと思っています。

私の問題に対するあなたの経験豊富な意見に本当に感謝します。

4

1 に答える 1