5

現在、より分散されたアプローチでスクレイピーを使用する予定ですが、スパイダー/パイプライン/ダウンローダー/スケジューラーとエンジンがすべて個別のプロセスまたはスレッドでホストされているかどうかはわかりません。これに関する情報を共有できますか? 各コンポーネントのプロセス/スレッド数を変更できますか? 「CONCURRENT_REQUESTS」と「CONCURRENT_ITEMS」の 2 つの設定があり、ダウンローダとパイプラインの同時スレッドを決定します。スパイダー/パイプライン/ダウンローダーを別のマシンにデプロイしたい場合は、アイテム/リクエスト/レスポンスをシリアル化する必要がありますよね? 大変お世話になりました!!

ありがとう、エドワード。

4

1 に答える 1

4

Scrapy はシングルスレッドです。Reactor パターンを使用して、同時ネットワーク リクエストを実現します。これはTwisted Framework を使用して行われます。

Scrapy を配布したい人は通常、何らかのメッセージング フレームワークを実装しようとします。Redis を使用する人もいれば、RabbitMQ を試す人もいます

Scrapydも見てください

于 2012-11-15T14:27:22.000 に答える