html - XPathを使用してHTML要素のテキストコンテンツを取得しますか？

Question

このhtmlを参照してください

<div>
    <p>
    <span class="abc">Monitor</span> <b>$300</b>
    </p>
    <a href="/add">Add to cart</a>
</div>
<div>
    <p>
    <span class="abc">Keyboard</span> $20 
    </p>
    <a href="/add">Add to cart</a>
</div>

Monitor $300xpathを使用して解析したいと思いKeyboard $20ます。このxpathを使用します

 //div[a[contains(., "Add to cart")]]/p/text()

しかし、それはを選択し<span class="abc">Monitor</span> <b>$300</b>ます。タグは必要ありません。テキストのみを取得するにはどうすればよいですか？

score 39 · Accepted Answer

子テキストだけでなく、すべての子孫テキストを選択したい場合:

//div[a[contains(., "Add to cart")]]/p//text()

pとの間の二重スラッシュに注意してくださいtext()。

ただし、これには多くのタグ間の空白も含まれる可能性がありますが、それをクリーンアップする必要があります。使用例lxml：

>>> import lxml.etree as ET
>>> tree = ET.fromstring('''<div>
... <div>
...     <p>
...     <span class="abc">Monitor</span> <b>$300</b>
...     </p>
...     <a href="/add">Add to cart</a>
... </div>
... <div>
...     <p>
...     <span class="abc">Keyboard</span> $20 
...     </p>
...     <a href="/add">Add to cart</a>
... </div>
... </div>''')
>>> tree.xpath('//div[a[contains(., "Add to cart")]]/p//text()')
['\n    ', 'Monitor', ' ', '$300', '\n    ', '\n    ', 'Keyboard', ' $20 \n    ']
>>> res = _
>>> [txt for txt in (txt.strip() for txt in res) if txt]
['Monitor', '$300', 'Keyboard', '$20']

html - XPathを使用してHTML要素のテキストコンテンツを取得しますか？

1 に答える 1

Related

Reference