2

Yahoo Pipes を使用して Web ページからコンテンツを抽出しています。何らかの理由で、開発者は記事のコンテンツを<h2>タグ内に配置しましたが、そこからコンテンツを取得するのに苦労しています。

内容は次のようになります。

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

使用する//div[@id='divid']と、ブロック全体のコンテンツを取得できますが、<div>試して//div[@id='divid']//h2//div[@id='divid']//h2/text()何も得られません。

<h2>タグ間のコンテンツを正しく取得するにはどうすればよいですか?

実際のWeb ページを確認することをお勧めします。

4

1 に答える 1

1

おそらく、 HTML5 パーサーを使用するオプションにチェックを入れていなかったのでしょう。それがなければ、一致しませんでした//h2

そのページはかなりの作業です。テキストは<span...>、インライン スタイルのタグでいっぱいです。ページを理解するために、サンプル パイプを作成しました。

http://pipes.yahoo.com/pipes/pipe.info?_id=cf46006f77bdac4a6e57785c78cd0b2b

于 2013-09-13T14:04:13.950 に答える