python - スクレイピーでサイトのリストを1つずつクロールする

Question

でサイトのリストをクロールしようとしていますscrapy。ウェブサイトの URL のリストをとして入れようとしましたstart_urlsが、それではあまり多くのメモリを確保できないことがわかりました。scrapy一度に 1 つまたは 2 つのサイトのクロールを設定する方法はありますか?

score 3 · Accepted Answer

concurrent_requests = 1データで過負荷にならないように試してみることができます

score 0 · Accepted Answer

URL へのリクエストを繰り返すstart_requestsメソッドを定義できます。これにより、すべての開始 URL を一度にメモリに保持するオーバーヘッドが回避され、説明した問題を解決する最も簡単な方法です。

クロール中に Scrapy がメモリに保持する URL がまだたくさんある場合は、永続化サポートを有効にすることができます。

一度にいくつかの URL のみをスクレイピーにフィードしたい場合は、spider_idleシグナルに登録し、コールバック関数で次のいくつかの URL を追加して DontCloseSpider を発生させることで可能です。

2 に答える 2