Scrapy がシャットダウンすると、すべての URL が忘れられます。開始時に、クロールされた一連の URL をスクレイピーに提供したいと考えています。どの URL がアクセスされたかを知るために、crawlspider にルールを追加するにはどうすればよいでしょうか?
現在の機能:
SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)
parse を使用して、クロールする URL をスパイダーに伝えるだけです。どのURLがアクセスしてはならないかをscrapyに伝えるにはどうすればよいですか?