php - simple_html_dom で doctype を抽出する

Question

私はsimple_html_domウェブサイトを解析するために使用しています。Doctype を抽出する方法はありますか?

score 3 · Accepted Answer

関数を使用file_get_contentsして、WebサイトからすべてのHTMLデータを取得できます。例えば

<?php
   $html = file_get_contents("http://google.com");
   $html = str_replace("\n","",$html);
   $get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
   $doctype = $matches[1][0];
?>

score 1 · Accepted Answer

使用できます$html->find('unknown')。これは、少なくとも、simplehtmldom ライブラリのバージョン 1.11 では機能します。次のように使用します。

function get_doctype($doc)
{
    $els = $doc->find('unknown');

    foreach ($els as $e => $el) 
        if ($el->parent()->tag == 'root') 
            return $el;

    return NULL;
}

これは、見つかった可能性のある他の「不明な」要素を処理するためのものです。最初はdoctypeになると思います。->innertextただし、で始まることを確認したい場合は、明示的に調べることができ'!DOCTYPE 'ます。

php - simple_html_dom で doctype を抽出する

2 に答える 2

Related

Reference