scrapy - Scrapy-再帰的に Web ページをスクレイプし、コンテンツを html ファイルとして保存する

Question

私は、scrapy を使用して Web ページのタグ内の情報を抽出し、それらの Web ページを HTML ファイルとして保存しています。各リンクに移動し、特定の司法事件に関連するコンテンツのみを HTML ページとして保存したい。たとえば、このhttp://www.austlii.edu.au/au/cases/cth/にアクセスHCA/1945/1.htmlをクリックして、ケースに関連する情報を保存します。

これをスクレイピーで再帰的に行い、コンテンツを HTML ページに保存する方法はありますか

score 1 · Accepted Answer

はい、Scrapy でそれを行うことができます。リンクエクストラクタが役立ちます。

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector


class AustliiSpider(CrawlSpider):
    name = "austlii"
    allowed_domains = ["austlii.edu.au"]
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"]
    rules = (
        Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'),
    )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)

        # do whatever with html content (response.body variable)

それが役立つことを願っています。

scrapy - Scrapy-再帰的に Web ページをスクレイプし、コンテンツを html ファイルとして保存する

1 に答える 1

Related

Reference