私はスクレイピーを使用しておりCrawlSpider
、クローラーを制御するためにツイスト リアクターを定義しています。テスト中にニュース サイトをクロールして、数 GB を超えるデータを収集しました。ほとんどの場合、私は最新の記事に興味があるので、要求されたページ数、バイト数、または秒数を制限する方法を探しています。
制限を定義する一般的な方法はありますか
- request_bytes
- request_countsまたは
- 実行時間は秒ですか?
そこにscrapy
クラスがありscrapy.extensions.closespider.CloseSpider
ます。変数CLOSESPIDER_TIMEOUT
、CLOSESPIDER_ITEMCOUNT
、CLOSESPIDER_PAGECOUNT
およびを定義できますCLOSESPIDER_ERRORCOUNT
。
基準が満たされると、スパイダーは自動的に閉じます: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider