HtmlCleaner ライブラリを使用して、html ファイルを解析し、その XPath 関数を介してデータを抽出しています。これはほとんどうまく機能しますが、ノードのテキスト コンテンツだけを取得する方法が見つかりません (子ノードのコンテンツなし)。多くの基本的な XPath ドキュメントで述べられているように、text() は子のコンテンツなしでノードのコンテンツを提供する必要がありますが、htmlcleaner の統合はこれに従っていないようです。htmlcleaners XPathでそれを行う方法はありますか?
UPADTE: ここに例があります:
私のhtmlはこのページです。 http://www.imdb.com/title/tt0499549/?ref_=nv_sr_1 ここにhtmlのスニペットがあります:
<div class="txt-block">
<h4 class="inline">Budget:</h4>
$237,000,000
<span class="attribute">(estimated)</span>
</div>
これは私の XPath です (この場合、div[7] は .txt-block div を取ります)
//*[@id='titleDetails']/div[7]/text()
これは「予算: $237,000,000 (推定)」につながりますが、「$237,000,000」のみが必要であり、h4 の内容でもスパンの内容でもありません。