現在、scrapy の CrawlSpider を使用して、複数の start_url のリストで特定の情報を探しています。私がやりたいことは、探していた情報が見つかったら、特定の start_url のドメインのスクレイピングを停止することです。そのため、ドメインにヒットし続けることはなく、代わりに他の start_url にヒットするだけです。
これを行う方法はありますか?次のように deny_domains に追加しようとしました。
deniedDomains = []
...
rules = [Rule(SgmlLinkExtractor(..., deny_domains=(etc), ...)]
...
def parseURL(self, response):
...
self.deniedDomains.append(specificDomain)
追加してもクロールは停止しないようですが、意図した特定のドメインでスパイダーを開始すると、要求どおりに停止します。では、スパイダーの起動後に deny_domains リストを変更できないと思いますか?