2

div からすべてのテキストを取得しようとしていますが、一部のタグで一部のテキストを除外したいと考えています。のすべてのテキストと同様<header><h2>some text</h2><header>に、 a のテキストも除外する場合があります<footer>

私はすでに次のようなものを持っています:

tree = <some html> 
XpathArticleSummary = "string(div)"
divs = tree.xpath(XpathArticleSummary)

私が欲しいのは次のようなものです:

XpathArticleSummary = "string(div[not(header|footer)])" 

しかし、これはもちろん機能しません:)

除外する方法はありますか?

4

1 に答える 1

0

lxml を使用しているため、この xpath は機能するはずです。

div//text()[not(parent::footer or parent::header)]

テキストノードのリストが表示されます。

于 2013-06-03T14:11:52.663 に答える