python - Scrapy を使用して MITOPENCOURSEWARE サイトのシラバスをスクレイピングする

Question

MITOPENCOURSEWARE サイトのシラバスをスクレイピングするスパイダーが機能しません。誰かがそれの何が問題なのかを理解するのを手伝ってくれますか? .* はすべてのコースに到達するためのものです。これは正しいですか？

  1 from scrapy.contrib.spiders import CrawlSpider, Rule
  2 from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
  3 from scrapy.selector import HtmlXPathSelector
  4 from opensyllabi.items import OpensyllabiItem
  5 
  6 class MITSpider(CrawlSpider):
  7     name = 'mit'
  8     allowed_domains = ['ocw.mit.edu']
  9     start_urls = ['http://ocw.mit.edu/courses']
 10     rules = [Rule(SgmlLinkExtractor(allow=['/.*/.*/syllabus']), 'parse_syllabus')]
 11 
 12     def parse_syllabus(self, response):
 13         x = HtmlXPathSelector(response)
 14 
 15         syllabus = OpensyllabiItem()
 16         syllabus['url'] = response.url
 17         syllabus['body'] = x.select("//div[@id='course_inner_section']").extract()
 18         return syllabus

score 1 · Accepted Answer

試す：

rules = [
    Rule(SgmlLinkExtractor(allow=r'/[^/]+/[^/]+/syllabus'), 'parse_syllabus'),
    Rule(SgmlLinkExtractor()),
]

最初のページのすべてのリンクを取得してから注意してください、それはたくさんのリンクです。

python - Scrapy を使用して MITOPENCOURSEWARE サイトのシラバスをスクレイピングする

1 に答える 1

Related

Reference