XPath を使用して、HTML ページからセクションを選択しています。ただし、XPath を使用してノードを抽出すると、HTML タグ自体ではなく、HTMLタグを囲むテキストのみが正しく選択されます。
サンプル HTML
<body>
<div>
At first glance you may ask, “what <i>exactly</i>
do you mean?” It means that we want to help <b>you</b> figure...
</div>
</body>
私は次のXPathを持っています
/body/div
私は次のことを得る
At first glance you may ask, “what do you mean?” It means that we want to help figure...
私が欲しい
At first glance you may ask, “what <i>exactly</i> do you mean?” It means that we want to help <b>you</b> figure...
<i/>
サンプル HTML で、コンテンツに aおよび<b />
HTML タグがあることに気付いた場合。これらのタグ内の単語は、コンテンツを抽出すると「失われます」。
それが違いを生む場合、私はPHPでSimpleXMLを使用しています。