python - Scrapy を使用して遅延読み込みプロダクトをスクレイピングする

翻译自：https://stackoverflow.com/questions/18879105 2013-09-18T17:57:30.723

1586 次

Scrapy で Web サイトをスクレイピングしようとしていますが、遅延読み込み製品のスクレイピングに問題があります。これは私のコードです。

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select('//ul[@id="productsCatalog"]/li')
    items = []
    for site in sites:
        item = DmozItem()
        item['link'] = site.select('a/@href').extract()
        item['title'] = site.select('a/span[4]/text()').extract()[0].strip()
        item['price'] = site.select('a/span[5]/span/text()').extract()
        item['brand'] = site.select('a/span[3]/text()').extract()
        items.append(item)

    return items

python - Scrapy を使用して遅延読み込みプロダクトをスクレイピングする

0 に答える 0

Related

Reference