xml - XPath contains(text(),'some string') は、複数の Text サブノードを持つノードで使用すると機能しません

Question

dom4j に含まれる XPath に小さな問題があります ...

私のXMLが

<Home>
    <Addr>
        <Street>ABC</Street>
        <Number>5</Number>
        <Comment>BLAH BLAH BLAH <br/><br/>ABC</Comment>
    </Addr>
</Home>

ルート要素を指定して、テキストに ABC が含まれるすべてのノードを見つけたいとしましょう...

したがって、私が書く必要のある XPath は次のようになります。

//*[contains(text(),'ABC')]

ただし、これは dom4j が返すものではありません .... これは dom4j の問題ですか、それとも XPath がどのように機能するかを理解していますStreetかComment?

DOM はComment要素を 4 つのタグ 2 を持つ複合要素にします

[Text = 'XYZ'][BR][BR][Text = 'ABC']

要素を見つけて実行する必要があるため、クエリは引き続き要素を返す必要があると思いますが、そうではありません...

次のクエリは要素を返しますが、要素だけでなく、親要素も返します。これは問題にとって望ましくありません。

//*[contains(text(),'ABC')]

<Street/>要素とだけを返す XPath クエリを知っている人はいます<Comment/>か?

score 861 · Accepted Answer

この<Comment>タグには、2 つのテキストノードと 2 つの<br>ノードが子として含まれています。

あなたのxpath式は

//*[contains(text(),'ABC')]

これを分解するには、

*任意の要素 (タグなど) に一致するセレクターです。ノードセットを返します。
は[]、そのノードセット内の個々のノードで動作する条件です。動作する個々のノードのいずれかが括弧内の条件に一致する場合に一致します。
text()コンテキストノードの子であるすべてのテキストノードに一致するセレクタです。ノードセットを返します。
contains文字列を操作する関数です。ノードセットが渡された場合、ノードセットは、ドキュメント順で最初のノードセット内のノードの文字列値を返すことによって、文字列に変換されます。したがって、<Comment>要素の最初のテキストノード、つまりBLAH BLAH BLAH. それは一致しないため、<Comment>結果に a は表示されません。

これをに変更する必要があります

//*[text()[contains(.,'ABC')]]

*任意の要素 (タグなど) に一致するセレクターです。ノードセットを返します。
外側[]は、そのノードセット内の個々のノードで動作する条件です。ここでは、ドキュメント内の各要素で動作します。
text()コンテキストノードの子であるすべてのテキストノードに一致するセレクタです。ノードセットを返します。
内側[]は、そのノードセット内の各ノード (ここでは個々のテキストノード) で動作する条件です。個々のテキストノードは、括弧内のパスの開始点であり、括弧内で明示的に参照することもでき.ます。動作する個々のノードのいずれかが括弧内の条件に一致する場合に一致します。
contains文字列を操作する関数です。ここでは、個々のテキストノード ( .) が渡されます。<Comment>タグ内の 2 番目のテキストノードが個別に渡されるため、'ABC'文字列が表示され、一致することができます。

9 に答える 9