一般的な HTML ファイルと一般的な XPath 式を受け入れる関数があります。HTMLタグを含むテキスト全体を含む一致したノードの文字列を抽出したい。簡単な例を次に示します...
<?php
$inDocStg = "
<html><body>
<div>The best-laid<br> schemes o' <span>mice</span> an' men
<img src='./mouse.gif'><br>
</div>
</body></html>
";
$xPathDom = new DOMDocument();
@$xPathDom->loadHTML( $inDocStg );
$xPath = new DOMXPath( $xPathDom );
$matches = $xPath->query( "//div" );
echo $matches->item(0)->nodeValue;
?>
これにより生成されます(ブラウザ出力ではなく、生成されたHTMLソースを見ています)...
The best-laid schemes o' mice an' men
(HTML タグは削除されています)。
しかし、私が欲しいのは...
The best-laid<br> schemes o' <span>mice</span> an' men<img src='./mouse.gif'><br>
ありがとう。