php - PHP DOMDocument->getElementByID 空の代わりに Â を追加

Question

PHP の DOMDocument オブジェクトを使用して HTML (cURL で取得) を解析しています。ID で要素を取得して出力すると、空の タグは追加の文字を取得してになりÂ ます。

コード：

<?php
    $document = new DOMDocument();
    $document->validateOnParse = true;

    $document->loadHTML( curl_exec($handle) );
    curl_close($handle);

    $element = $document->getElementById( __ELEMENT_ID__ );

    echo $document->saveHTML(); 
    echo $document->saveHTML($element);
?>

コマンドは期待どおりに動作し、$document->saveHTML()ページ全体を印刷します。しかし、上で言ったように、echo $document->saveHTML($element)コマンドで空のタグをに変換しÂ ます。

これは、 内のすべてのタグで発生します$element。

この余分な文字を挿入しているのは、このプロセス (ID で要素を取得して要素を出力するプロセス) の何ですか? 私はそれを回避できますが、根本に到達することにもっと興味があります。

score 0 · Accepted Answer

ページの文字エンコーディングを設定することで問題を解決できました。フェッチしていたページには文字エンコーディングが定義されておらず、ページはヘッダー情報が定義されていない単なるスニペットでした。追加したところ

<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
</head>

問題は消えました。

php - PHP DOMDocument->getElementByID 空の代わりに Â を追加

1 に答える 1

Related

Reference