11

私はスクレイピーを使用しておりCrawlSpider、クローラーを制御するためにツイスト リアクターを定義しています。テスト中にニュース サイトをクロールして、数 GB を超えるデータを収集しました。ほとんどの場合、私は最新の記事に興味があるので、要求されたページ数、バイト数、または秒数を制限する方法を探しています。

制限を定義する一般的な方法はありますか

  • request_bytes
  • request_countsまたは
  • 実行時間は秒ですか?
4

1 に答える 1

22

そこにscrapyクラスがありscrapy.extensions.closespider.CloseSpiderます。変数CLOSESPIDER_TIMEOUTCLOSESPIDER_ITEMCOUNTCLOSESPIDER_PAGECOUNTおよびを定義できますCLOSESPIDER_ERRORCOUNT

基準が満たされると、スパイダーは自動的に閉じます: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider

于 2013-10-03T14:34:49.500 に答える