私の現在のスクレイピー スパイダーは、必要に応じて Web サイトから製品タイトルを取得しますが、各 start_url の抽出を個別の['product']
リストに配置します。すべての start_url 抽出を 1 つのリスト (それぞれのクラス タイプ: 製品、価格など) に配置して、今後の抽出操作でリストから各製品タイトルを呼び出すことができるようにしたいと考えています。
これが私の現在のスパイダーです:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from proj.items import projItem
class siteSpider(BaseSpider):
name = "newSpider"
allowed_domains = ["http://www.sample.url/"]
start_urls = [
"http://sample1.url",
"http://sample2.url"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
item = FlecheNoireItem()
item ["product"] = hxs.select('//h2/a[contains(@class,"next_prev")]/text()').extract()
items.append(item)
return items