1

日本語のページを扱いたいのですが、この文字エラーが発生します。

  <?php
    $profile="<div><p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p></div>";
    $dom = new DomDocument();
    $dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
    $divs = $dom->getElementsByTagName('div');
    foreach ($divs as $div) {
        echo $dom->saveHTML($div);
    }
    //or
    $dom->loadHTML('<?xml encoding="utf-8" ?>' . $profile);
    ?> 

この値を返しました:

イリãƒã‚¤å·ã‚·ã‚«ã‚´ã«ã¦ã€ã‚¢ã‚¤ãƒ«ãƒ©ãƒ³ãƒ‰ç³»ã®å®¶åº­ã«ã€9

この問題を解決するにはどうすればよいですか?

アップデート

私は単純なdomパーサーを使用しています:

<?php
require_once("/simple_html_dom.php");
$html = str_get_html("<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>");
echo $html->find('p', 0)->plaintext;
?>

返された イリãƒã‚¤å·ã‚·ã‚«ã‚´ã«ã¦ã€ã‚¢ã‚¤ãƒ«ãƒ©ãƒ³ãƒ‰ç³»ã®å®¶åºã«ã€9

4

2 に答える 2