0

最初のページにすべての求人へのリンクがある求人サイトをスクレイピングしています。今、最初のページからタイトル、仕事、会社を保存しています。

しかし、役職をクリックして利用できる説明も保存したいと思います。それも現行品と一緒に保管したいです。

これは私の現在のコードです

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select("//div[@class='jobenteries']")
    items = []
    for site in sites[:3]:
        print "Hello"
        item = DmozItem()
        item['title'] = site.select('a/text()').extract()
        item['desc'] = ''
        items.append(item)
    return items

しかし、その説明は次のページのリンクにあります。どうやってやるの

4

1 に答える 1

3

最初のページから、2 ページ目のリクエストを返し、request.meta dict で各アイテムのデータを渡します。2 番目のページのコールバック メソッドで、渡したデータを読み取り、完全に設定された項目を返すことができます。

詳細と例については、scrapy ドキュメントの追加データをコールバック関数に渡すを参照してください。

于 2012-11-22T10:42:09.647 に答える