1

今、私はスクレイピーとセロリで分散型スクレイパーを完成させたいと思っています.私の現在の考えは、マスタースレーブ方式を使用することです,誰かがそれは良い考えだと教えてもらえますか?これのための良いオープンソースプロジェクトはありますか?

4

1 に答える 1

2

分散クロールのセットアップを実装したとき、redis の助けを借りてそれを達成しました。これが私がやった方法です。

クロールするドメインのリストがあります。これらのドメインを redis にアップロードします。私のプロジェクトでは、データをスクレイピングするドメインが 30,000 ありました。

redis-py クライアントを使用して redis と通信し、各 URL を Scrapy にフィードします。

于 2013-03-28T11:11:17.627 に答える