php - テキストが HTML かどうかを識別する方法は? （PHPで）

Question

データベースからテキストエントリを読み取りたいのですが、実際には HTML エントリもあれば、テキストとして表示する必要がある HTML マークアップを含むプレーンテキストもあります。

プレーンテキストの場合は、最初に PHP の関数を呼び出しhtmlspecialchars()てから HTMLPurifier を介して結果を実行することにより、HTML に変換する必要があります。

つまり、 isHTML() 関数の実装方法に関するヒントを探しています。

$text = getTextFromDatabase();
if (!isHTML($text)) {
    $text = htmlspecialchars($text);
}
$purifier = new HTMLPurifier();
$clean_html = $purifier->purify($text);

したがって、たとえば、次のテキストが実行されますhtmlspecialchars。

The <p> tag of HTML has to be followed by a </p> tag to end the paragraph.

また、次のテキストは実行されませんhtmlspecialchars。

<p>These are few lines of HTML.</p>
<div>There might be multiple independent</div>
<p>but valid HTML blocks in it.</p>

そこにはすでに機能があるはずですisHTML()が、たまたまそれを見つけることができず、車輪を再発明したくありません:-)。ある種の HTMLPurifier 設定でこれを行うことさえ可能でしょうか?

HTML コードにバグがある場合は、HTMLPurifier で処理する必要があり、コードを実行しないでくださいhtmlspecialchars。:-) たとえば、HTML コードに<p>終了タグが必要な場合に、開始タグを使用するなどです。</p>

助けていただければ幸いです。すでにありがとうございます:-)、
ロバート。

score 9 · Accepted Answer

この機能を試すことができます

function isHTML($string){
    return ($string != strip_tags($string));
}

score 8 · Accepted Answer

次のロジックを考慮してください。有効な html テキストが htmlentities によって検出された場合、入力テキストと htmlentities からの出力テキストは異なります。そう：

function isHTML($text){
   $processed = htmlentities($text);
   if($processed == $text) return false;
   return true; 
}

これがうまくいくことを願っています

score 5 · Accepted Answer

文字列内のhtmlに固有の文字のみを確認できます

function is_html($string)
{
  return preg_match("/<[^<]+>/",$string,$m) != 0;
}

score 0 · Accepted Answer

タグを取り除いたバージョンの文字列をオリジナルと比較できるかどうかを考えていました。それらが異なる場合、削除するものがありました。この男は同じことを提案しています: https://subinsb.com/php-check-if-string-is-html

php - テキストが HTML かどうかを識別する方法は? （PHPで）

5 に答える 5

Related

Reference