別のシステムに移行されているリッチテキストで編集されたコンテンツブロブを多数含む大きなデータセットがあります。新しいシステムは、許可されたHTMLタグに関しては古いシステムよりも厳格であり、データを移行する前に、データ内のどのタグがカットまたはエンコードされ、入力時に不適切な方法でコンテンツに含まれるかを識別できる必要があります。 。
したがって、たとえばこのHTMLが与えられた場合:
<h1>My page</h1><p>Lorem ipsum<marquee>SURPRISE!</marquee></p>
「h1」タグと「p」タグ(どこかの例外リストにリストされています)には関心がありませんが、理想的には、「マーキー」タグが強調表示されているのを視覚的なスポットチェックで確認できるようにする必要があります。不良タグは簡単に識別して手動で処理できます(現時点では、データセットに不良タグが多数あるとは予想していません)。
不要なタグを削除するのは簡単です(単純なPHP / Pythonなどを考えてください)が、それを実行したくないため、データが失われる可能性があります。
同様に、タグをエンコードするのは簡単ですが、コンテンツの一部として醜い役に立たないタグをインポートしたくありません。
この種のことを行うための最良の方法は何ですか?私が見逃している簡単な解決策があるか、それを間違った方法で考えていると思わずにはいられません。