php - 内部のhtmlコンテンツを抽出またはカットするにはどうすればよいですか
.........
? HTML ソースの形式が正しくありません

Question

<html>
    <head><title>bla bla</title></head>
    <body>
    <div id="mainContent" xmlns:h="http://www.w3.org/1999/xhtml" xmlns="http://www.w3.org/1999/xhtml">
        bla bla .....
    </div>
    </body>
</html>

その区分を抽出する必要があります。PHP 5を使用してどのように行うことができますか?

HTML ソースは現在の形式ではありません。いくつかの未定義の属性があります。

score 1 · Accepted Answer

HTML の形式が整っていない場合でも、次のようなものを使用できますDOMDocument。

$d = new DOMDocument;
$d->loadHTML($htmlstring);

$x = new DomXPath($d);

foreach ($x->query('//div[@id="mainContent"]') as $node) {
    echo $node->nodeValue;
}

または、HTML の前にを付けて、通常どおり<!DOCTYPE html>使用できるようにします。getElementById

score 0 · Accepted Answer

/<div id=\"mainContent\".*?</div>/gs

divの開始タグから終了タグまですべてをキャプチャする場合はhttp://regexr.com?30o0l 。

php - 内部のhtmlコンテンツを抽出またはカットするにはどうすればよいですか.........? HTML ソースの形式が正しくありません

2 に答える 2

Related

Reference

php - 内部のhtmlコンテンツを抽出またはカットするにはどうすればよいですか
.........
? HTML ソースの形式が正しくありません