Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
今、私はスクレイピーとセロリで分散型スクレイパーを完成させたいと思っています.私の現在の考えは、マスタースレーブ方式を使用することです,誰かがそれは良い考えだと教えてもらえますか?これのための良いオープンソースプロジェクトはありますか?
分散クロールのセットアップを実装したとき、redis の助けを借りてそれを達成しました。これが私がやった方法です。
クロールするドメインのリストがあります。これらのドメインを redis にアップロードします。私のプロジェクトでは、データをスクレイピングするドメインが 30,000 ありました。
redis-py クライアントを使用して redis と通信し、各 URL を Scrapy にフィードします。