Scrapy を使用して Web サイトをクロールし、すべてのページを取得していますが、現在のコード ルールでは、" http://www.example.com/some-article/comment-page- 1 "投稿のメイン URL に加えて。これらの不要なアイテムを除外するには、ルールに何を追加できますか? これが私の現在のコードです:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.item import Item
class MySpider(CrawlSpider):
name = 'crawltest'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com']
rules = [Rule(SgmlLinkExtractor(allow=[r'/\d+']), follow=True), Rule(SgmlLinkExtractor(allow=[r'\d+']), callback='parse_item')]
def parse_item(self, response):
#do something