python - Scrapy Spiderでリクエスト機能を使用するには?

Question

from string import join
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders.crawl import Rule, CrawlSpider
from scrapy.http.request import Request
from scrapy.selector import HtmlXPathSelector
from Gfire.items import GfireItem

class GuideSpider(CrawlSpider):
    name = "Gfire"
    allowed_domains = ['www.example.com']
    start_urls = [
        "http://www.example.com/gfire/guides"
    ]
    rules = (
        Rule(SgmlLinkExtractor(allow=("gfire/guides.*page=")), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)
        items = []
        sites = hxs.select('//div[@class="title"]')
        for site in sites:
            item = GFireItem()
            item['title'] = site.select('./a/text()').extract()
            item['guide_url'] = site.select('./a/@href').extract()
            item['guide_url'] = "http://www.example.com" + join(item['guide_url'])
            items.append(item)
        return Request(items[1], callback=self.parse_item2)

    def parse_item2(self, response):
        hxs = HtmlXPathSelector(response)
        hero = hxs.select("//h3/a/text()").extract()
        return hero

このスパイダーを動作させることはできません。request 関数には item['guide_url'] である必要がある items[1] が含まれていますが、パラメーターは str または unicode でなければならないと言われています。このエラーを修正するにはどうすればよいですか? また、項目リストをコールバック関数に渡すにはどうすればよいですか? request.meta経由？

score 4 · Accepted Answer

def parse_item(self, response):
    hxs = HtmlXPathSelector(response)
    items = []
    sites = hxs.select('//div[@class="title"]')
    for site in sites:
        item = GFireItem()
        item['title'] = site.select('./a/text()').extract()
        item['guide_url'] = site.select('./a/@href').extract()
        item['guide_url'] = "http://www.example.com" + join(item['guide_url'])
        items.append(item)
    return Request(items[1]['guide_url'], request.meta={'items':items}, callback=self.parse_item2)

def parse_item2(self, response):
    items = response.meta["items"]
    hxs = HtmlXPathSelector(response)
    hero = hxs.select("//h3/a/text()").extract()
    return hero

score 4 · Accepted Answer

あなたitem[1]は実際にはのインスタンスですGFireItem。

1 つ(サイトのリストの 2 番目のサイト)のみを使用し、リストの残りを破棄するため、これらを作成する理由がわかりません。

items[1]['guide_url']それはさておき、作成時にURLを抽出する必要がありますRequest：

        return Request(items[1]['guide_url'], callback=self.parse_item2)

python - Scrapy Spiderでリクエスト機能を使用するには?

2 に答える 2

Related

Reference