複数行の HTML ファイルで空の HTML 要素を見つけるのに問題があります。私の正規表現はこれです:
Pattern pattern = Pattern.compile("<([a-zA-Z][a-zA-Z0-9]*)[^>]*?>[\\s]*?</\\1>");
Matcher matcher = pattern.matcher(htmlOut);
while (matcher.find())
{
htmlOut = matcher.replaceAll("");
matcher = pattern.matcher(htmlOut);
}
問題は、空のタグのいずれとも一致しないことです。
参考までに: 同じ正規表現<([a-zA-Z][a-zA-Z0-9]*)[^>]*?>[\s]*?</\1>
が崇高なテキストで機能します!
アプローチはありますか?