私は Python と Scrapy の完全な初心者なので、チュートリアルを再現することから始めました。チュートリアルに従って、www.dmoz.org Web サイトをスクレイピングしようとしています。
以下に示すように dmoz_spider.py を構成します
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['desc'] = site.select('text()').extract()
items.append(item)
return items
そして、私がウェブサイト経由で取得することになっているものは、何か違うものです.
私が何を台無しにしているのか分かりますか?