0

ページから情報を取得するために、htmlページをdomオブジェクトに変換しようとしています。

次のコードは私にエラーしか与えないので、私がしていることは何でも間違っています

phpコード

$page = file_get_contents('http://google.com');
$dom= new DOMDocument();
$dom->loadHTML($page);
echo $dom->saveHTML(); 
return;

エラー例

Warning: DOMDocument::loadHTML() [domdocument.loadhtml]: htmlParseEntityRef: expecting ';' in Entity, line: 34 in C:\xampp\htdocs\site\index.php on line 32

誰かが私が何をすべきか教えてもらえますか?

4

1 に答える 1

1

正直なところ、これで問題が解決するかどうかはわかりませんが、次のことを試してください。整頓を使用してhtmlをクリーンアップします。

$page = file_get_contents('http://google.com');

// Specify configuration
$config = array(
           'indent'         => true,
           'output-xhtml'   => true,
           'wrap'           => 200);

// Tidy
$tidy = new tidy();
$tidy->parseString($page, $config, 'utf8');
$tidy->cleanRepair();


$dom= new DOMDocument();
$dom->loadHTML($tidy);
echo $dom->saveHTML(); 
return;
于 2012-08-08T19:23:54.903 に答える