私はスクレイピーを使用しておりCrawlSpider、クローラーを制御するためにツイスト リアクターを定義しています。テスト中にニュース サイトをクロールして、数 GB を超えるデータを収集しました。ほとんどの場合、私は最新の記事に興味があるので、要求されたページ数、バイト数、または秒数を制限する方法を探しています。
制限を定義する一般的な方法はありますか
- request_bytes
- request_countsまたは
- 実行時間は秒ですか?
そこにscrapyクラスがありscrapy.extensions.closespider.CloseSpiderます。変数CLOSESPIDER_TIMEOUT、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNTおよびを定義できますCLOSESPIDER_ERRORCOUNT。
基準が満たされると、スパイダーは自動的に閉じます: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider