Scrapy を使用して Web サイトをクロールし、データを json ファイルに抽出していますが、一部のサイトでは、クローラーが Web サイト全体をクロールするのに時間がかかることがわかりました。
私の質問は、クロールにかかる時間を最小限に抑えるにはどうすればよいですか?
CONCURRENT_ITEMS
、CONCURRENT_REQUESTS
、CONCURRENT_REQUESTS_PER_DOMAIN
およびその他の設定を調整してみてください。
設定の完全なリストについては、http://doc.scrapy.org/en/latest/topics/settings.html を参照してください。