celery - スクレイピーを使用して分散スクレイパーをセロリで仕上げるにはどうすればよいですか?

Question

今、私はスクレイピーとセロリで分散型スクレイパーを完成させたいと思っています.私の現在の考えは、マスタースレーブ方式を使用することです,誰かがそれは良い考えだと教えてもらえますか?これのための良いオープンソースプロジェクトはありますか?

score 2 · Accepted Answer

分散クロールのセットアップを実装したとき、redis の助けを借りてそれを達成しました。これが私がやった方法です。

クロールするドメインのリストがあります。これらのドメインを redis にアップロードします。私のプロジェクトでは、データをスクレイピングするドメインが 30,000 ありました。

redis-py クライアントを使用して redis と通信し、各 URL を Scrapy にフィードします。

1 に答える 1