Scrapy で Web サイトをスクレイピングしていますが、結果を 2 つの部分に分割したいと考えています。通常、私は次のように Scrapy を呼び出します。
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
2 つのスパイダーは完全に独立しており、まったく通信しません。このセットアップは小規模な Web サイトでは機能しますが、大規模な Web サイトでは作成者が多すぎて、このようにクロールできません。
この 2 つのファイル構造をクロールして維持するページをarticles
スパイダーに伝えるにはどうすればよいでしょうか? authors
理想的には、作成者の URL をファイルに書き込んで、別のスパイダーで読み返すのは避けたいと思います。