python - Web ページを再帰的にブラウズしてスクレイピングする

Question

scrapyPython ライブラリを使用して、Web サイト全体を再帰的に参照する次のクローラーを作成するにはどうすればよいですか。

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/"
    ]

def parse(self, response):

    hxs = HtmlXPathSelector(response)

    titles = hxs.select('//ul[@class="directory-url"]/li/a/text()').extract()

    for t in titles:
        print "Title: ", t

私はこれを単一のページで試しました：

start_urls = [
    "http://www.dmoz.org/Society/Philosophy/Academic_Departments/Africa/"
]

うまく機能しますが、開始 URL からの結果のみを返し、ドメイン内のリンクをたどりません。これは手動で行う必要があると思いますScrapyが、方法がわかりません。

score 2 · Accepted Answer

CrawlSpidera (ドキュメントを参照)を使用してみてください。必要なドメインのみをフィルター処理Rule()する aを持つ単一の:LinkExtractor

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector

class DmozSpider(CrawlSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/"
    ]

    rules = (
        Rule(
            SgmlLinkExtractor(allow_domains=("dmoz.org",)),
            callback='parse_page', follow=True
        ),
    )

    def parse_page(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select('//ul[@class="directory-url"]/li/a/text()').extract()
        for t in titles:
            print "Title: ", t

コールバックは別の名前にする必要がありますparse(この警告を参照してください)

python - Web ページを再帰的にブラウズしてスクレイピングする

1 に答える 1

Related

Reference