python - Scrapy: リクエストまたはリクエストのバイト数を制限する

Question

私はスクレイピーを使用しておりCrawlSpider、クローラーを制御するためにツイストリアクターを定義しています。テスト中にニュースサイトをクロールして、数 GB を超えるデータを収集しました。ほとんどの場合、私は最新の記事に興味があるので、要求されたページ数、バイト数、または秒数を制限する方法を探しています。

制限を定義する一般的な方法はありますか

request_bytes
request_countsまたは
実行時間は秒ですか？

score 22 · Accepted Answer

そこにscrapyクラスがありscrapy.extensions.closespider.CloseSpiderます。変数CLOSESPIDER_TIMEOUT、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNTおよびを定義できますCLOSESPIDER_ERRORCOUNT。

基準が満たされると、スパイダーは自動的に閉じます: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider

python - Scrapy: リクエストまたはリクエストのバイト数を制限する

1 に答える 1

Related

Reference