python - 機械化: div 内のリンクをたどる

Question

br.follow_link特定の div 内にあるリンク ( ) を Mechanize にたどらせる最も Pythonic な方法は何ですか? BeautifulSoupの助けを借りてそれを行う方法は知っていますが、Mechanizeでそれを行う方法はありますか?

サンプル部門:

<div id="blah_links">
 <a href="LINK1" class="active">1</a> |
 <a href="LINK2">2</a> |
 <a href="LINK3">3</a> |
 <a href="LINK4">NEXT</a>
</div>

score 1 · Accepted Answer

最近同様の問題に遭遇しましたが、これが私がしたことです

url = "www.somewhere.com"
br = mechanize.Browser()
br.open(url)

encoded_data = UnicodeDammit(br.response().read(),isHTML=True).unicode
parser = lxml_html.fromstring(encoded_data)

soup_xpath = "//div[@id='BODYCON']//a/@href"
valid_links = soup.xpath(soup_xpath)
links  = [ link for link if link.url in valid_links ]

python - 機械化: div 内のリンクをたどる

1 に答える 1

Related

Reference