html - XPath を使用してヘッダーのコンテンツを取得する方法

Question

Yahoo Pipes を使用して Web ページからコンテンツを抽出しています。何らかの理由で、開発者は記事のコンテンツを<h2>タグ内に配置しましたが、そこからコンテンツを取得するのに苦労しています。

内容は次のようになります。

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

使用する//div[@id='divid']と、ブロック全体のコンテンツを取得できますが、<div>試して//div[@id='divid']//h2も//div[@id='divid']//h2/text()何も得られません。

<h2>タグ間のコンテンツを正しく取得するにはどうすればよいですか?

実際のWeb ページを確認することをお勧めします。

score 1 · Accepted Answer

おそらく、 HTML5 パーサーを使用するオプションにチェックを入れていなかったのでしょう。それがなければ、一致しませんでした//h2。

そのページはかなりの作業です。テキストは<span...>、インラインスタイルのタグでいっぱいです。ページを理解するために、サンプルパイプを作成しました。

1 に答える 1