HTMLコードを含む文字列があります。HTMLコードが表示されているテキストを表しているのか画像を表しているのかを知りたいのですが。私はJavaを使用して、次の正規表現を使用してこの問題を解決しました(RegExpsを使用してHTMLを解析できないことはわかっていますが、RegExpsまでは十分だと思いました)。
public static String regex_html_tags_1 = "<\\s*br\\s*[/]?>";
public static String regex_html_tags_2 = "<\\s*([a-zA-Z0-9]+)\\s*([^=/>]+\\s*=\\s*[^/>]+\\s*)*\\s*/>";
public static String regex_html_tags_3 = "<\\s*([a-zA-Z0-9]+)\\s*([^=>]+\\s*=\\s*[^>]+\\s*)*\\s*>\\s*</\\s*\\1\\s*>";
public static String[] HTMLWhiteSpaces = {" ", " "};
これらの正規表現を使用するコードは、次のような文字列に対して正常に機能します。
<h2></h2>
または同様に。しかし、文字列
<img src="someImage.png"></img>
また、空であると考えられています。
正規表現を使用して、ブラウザで解釈されたときに人間が読めるテキストを実際に表すHTMLコードがあるかどうかを調べるよりも良いアイデアはありますか?それとも、私のアプローチが最終的に成功につながると思いますか?
よろしくお願いします。