探している単語が含まれていないが、href テキストには含まれているリンクへのサポートを追加したいと考えています。
href テキストも抽出して、2 番目の引数として process_value コールバックに渡すことができるようにしたいと考えています。
そのようなことを達成する方法を知っている人はいますか?
ありがとう。
探している単語が含まれていないが、href テキストには含まれているリンクへのサポートを追加したいと考えています。
href テキストも抽出して、2 番目の引数として process_value コールバックに渡すことができるようにしたいと考えています。
そのようなことを達成する方法を知っている人はいますか?
ありがとう。
BaseSpiderを作成し、必要な基準に基づいてリンクを抽出する必要があります。
あなたにアイデアを与えるためだけに:
class MySpider(BaseSpider):
def parse(self, response):
hxs = HtmlXPathSelector(response)
links = hxs.select('//a')
for link in links:
href = link.select('@href').extract()[0]
text = links.select('text()').extract()[0]
# I make an assumption here that you want text() instead of @href here
if text == 'something':
yield Request(href, callback = self.parse_page)
def parse_page(self, response):
return #return your item here