2

HtmlCleaner ライブラリを使用して、html ファイルを解析し、その XPath 関数を介してデータを抽出しています。これはほとんどうまく機能しますが、ノードのテキスト コンテンツだけを取得する方法が見つかりません (子ノードのコンテンツなし)。多くの基本的な XPath ドキュメントで述べられているように、text() は子のコンテンツなしでノードのコンテンツを提供する必要がありますが、htmlcleaner の統合はこれに従っていないようです。htmlcleaners XPathでそれを行う方法はありますか?

UPADTE: ここに例があります:

私のhtmlはこのページです。 http://www.imdb.com/title/tt0499549/?ref_=nv_sr_1 ここにhtmlのスニペットがあります:

<div class="txt-block">
  <h4 class="inline">Budget:</h4>        
    $237,000,000      
  <span class="attribute">(estimated)</span>
</div>

これは私の XPath です (この場合、div[7] は .txt-block div を取ります)

//*[@id='titleDetails']/div[7]/text()

これは「予算: $237,000,000 (推定)」につながりますが、「$237,000,000」のみが必要であり、h4 の内容でもスパンの内容でもありません。

4

0 に答える 0