こんにちは、crawlspider を使用しようとしていて、独自の拒否ルールを作成しました
class MySpider(CrawlSpider):
name = "craigs"
allowed_domains = ["careers-cooperhealth.icims.com"]
start_urls = ["careers-cooperhealth.icims.com"]
d= [0-9]
path_deny_base = [ '.(login)', '.(intro)', '(candidate)', '(referral)', '(reminder)', '(/search)',]
rules = (Rule (SgmlLinkExtractor(deny = path_deny_base,
allow=('careers-cooperhealth.icims.com/jobs/…;*')),
callback="parse_items",
follow= True), )
それでも私のスパイダーはhttps://careers-cooperhealth.icims.com/jobs/22660/registered-nurse-prn/loginのようなページをクロールしましたが、ログインをクロールすべきではありません。ここで何が問題なのですか?