HTML 文字列を解析し、空の子のみを含むすべての要素を削除する必要があります。
例:
<P ALIGN="left"><FONT FACE="Arial" SIZE="12" COLOR="#000000" LETTERSPACING="0" KERNING="1"><B></B></FONT></P>
情報が含まれていないため、次のものに置き換える必要があります</br>
私は次のような正規表現を書きました:
<\w+\b[^>]*>(<\w+\b[^>]*>\s*</\w*\s*>)*</\w*\s*>
しかし問題は、3 つのうち 2 つのレベルしかキャッチしていないことです。上記の例では、<p>
要素 (最も外側の要素) は選択されていません。
この正規表現を修正するのを手伝ってもらえますか?