2

私はスパイダーを書いていますが、どのリンクが「次のページ」を意味するのか知りたいので、値 = 「次のページ」で要素を取得してから、リンクを取得する必要があります。タグが 1 つ含まれているだけでなく、html ソース コード全体であり、特定のリンクを取得したいと考えています。

次のような要素を取得したい場合

`<a href="http://*****">..</a>`

使うことができます

`'a[href^="http"]'`

そして、私は試します

`'a[text="value"]'`
4

1 に答える 1

2

「含む」を試してください:

from pyquery import PyQuery as pq

doc = pq("<html><body><a href='https://stackoverflow.com'>Next page</a><p>...Next time...</p></body></html>")

el = doc('a:Contains("Next")')
el.text()         # 'Next page'
el.attr['href']   # 'https://stackoverflow.com'
于 2018-04-26T16:10:55.703 に答える