python - Scrapy SgmlLinkExtractor 任意の URL を追加する

Question

SgmlLinkExtractor に URL を追加するにはどうすればよいですか? つまり、コールバックを実行する任意の URL を追加するにはどうすればよいですか?

例として dirbot を使用して詳しく説明するには: https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py

parse_categoryは、SgmlLinkExtractor に一致するすべてのものにのみアクセスします SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')

score 0 · Accepted Answer

CrawlSpider の代わりに BaseSpider を使用し、add を start_requests または start_urls [] に設定します。

class MySpider(BaseSpider):
    name = "myspider"

    def start_requests(self):
        return [Request("https://www.example.com",
            callback=self.parse)]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        ...

score 0 · Accepted Answer

クラス ThemenHubSpider(CrawlSpider):

name = 'themenHub'
allowed_domains = ['themen.t-online.de']
start_urls = ["http://themen.t-online.de/themen-a-z/a"]
rules = [Rule(SgmlLinkExtractor(allow=['id_\d+']), 'parse_news')]

python - Scrapy SgmlLinkExtractor 任意の URL を追加する

2 に答える 2

Related

Reference