python - div テキスト、一部のタグテキストは除外

Question

div からすべてのテキストを取得しようとしていますが、一部のタグで一部のテキストを除外したいと考えています。のすべてのテキストと同様<header><h2>some text</h2><header>に、 a のテキストも除外する場合があります<footer>。

私はすでに次のようなものを持っています:

tree = <some html> 
XpathArticleSummary = "string(div)"
divs = tree.xpath(XpathArticleSummary)

私が欲しいのは次のようなものです:

XpathArticleSummary = "string(div[not(header|footer)])"

しかし、これはもちろん機能しません:)

除外する方法はありますか？

score 0 · Accepted Answer

lxml を使用しているため、この xpath は機能するはずです。

div//text()[not(parent::footer or parent::header)]

テキストノードのリストが表示されます。

python - div テキスト、一部のタグ テキストは除外