1

探している単語が含まれていないが、href テキストには含まれているリンクへのサポートを追加したいと考えています。

href テキストも抽出して、2 番目の引数として process_value コールバックに渡すことができるようにしたいと考えています。

そのようなことを達成する方法を知っている人はいますか?

ありがとう。

4

1 に答える 1

0

BaseSpiderを作成し、必要な基準に基づいてリンクを抽出する必要があります。

あなたにアイデアを与えるためだけに:

class MySpider(BaseSpider):

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        links = hxs.select('//a')
        for link in links:
            href = link.select('@href').extract()[0]
            text = links.select('text()').extract()[0]
                # I make an assumption here that you want text() instead of @href here
                if text == 'something':
                        yield Request(href, callback = self.parse_page)

    def parse_page(self, response):
        return #return your item here
于 2012-08-26T07:11:19.617 に答える