php - XPath クエリに一致するすべての要素からテキストを取得する XPath

Question

以下のすべての要素からすべてのテキストを 1 つの文字列で返すクエリを作成するのは非常に困難です(ページ上の他のすべての要素にもテキストが含まれており、spanまたはdiv要素ではないと仮定します)。

注: 私は PHP XPath エンジンを使用しているため、XPath 1.0 のソリューションを使用せざるを得ません。

HTML

<div>Hello</div>
<div>World</div>
<div>!!!</div>
<span>This</span>
<span>is</span>
<span>cool</span>

XPath

normalize-space(//*/div | //*/span)

望ましい出力:

Hello World!!! This is cool

提案をいただければ幸いです。よろしくお願いします！

score 1 · Accepted Answer

要素間にはすでにスペースがあるため、選択したものに含める限り、スペースを追加する必要はありません。文字列を予期するものにノードセットを渡すと、XPath はすべての子孫テキストノードをドキュメント順に連結するだけで、ノードセットを文字列に変換します。したがって、コンテキストノードがこれらすべてのdivandspan要素の親である場合、最も単純な式は次のとおりです。

normalize-space(.)

score 0 · Accepted Answer

lxml で EXSLT 文字列拡張機能を使用する (Python) http://www.exslt.org/str/str.html

str:replace(str:concat(//text()), "\n", " ")

またはさらに単純な

normalize-space(str:concat(//text()))

Python シェルでテスト済み

>>> import lxml.etree
>>> import lxml.html
>>> doc="""<div>Hello</div>
... <div>World</div>
... <div>!!!</div>
... <span>This</span>
... <span>is</span>
... <span>cool</span>"""
>>> root = lxml.etree.fromstring(doc, parser=lxml.html.HTMLParser())
>>> root.xpath('str:replace(str:concat(//text()), "\n", " ")', namespaces={"str": "http://exslt.org/strings"})
'Hello World !!! This is cool'
>>> root.xpath('normalize-space(str:concat(//text()))', namespaces={"str": "http://exslt.org/strings"})
'Hello World !!! This is cool'
>>>

php - XPath クエリに一致するすべての要素からテキストを取得する XPath

4 に答える 4

Related

Reference