PHP の DOMDocument を使用してloadHTML
、コンテンツを解析するメソッドを使用してユーザーが送信した HTML を解析および正規化し、次の方法で整形式の結果を取得していますsaveHTML
。
$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');
$well_formed= $dom->saveHTML();
echo($well_formed);
これにより、フラグメントが解析され、適切な終了タグが追加されます。問題は、、、、など<!DOCTYPE>
の不要なタグも大量に取得していることです。すべての適切な形式の HTML ドキュメントにはこれらのタグが必要であることは理解していますが、正規化する HTML フラグメントは既存の有効なドキュメントに挿入されます。<html>
<head>
<body>