java - JavaでHTMLタグを削除するにはどうすればよいですか？

Question

Javaの次の文字列からHTMLタグを削除する必要があります

String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";

これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。

score 1 · Accepted Answer

もちろん、「bとz」は削除されます。そのテキストを削除することになっています。HTMLでは、属性を引用符で囲む必要がなく、値を必要としないためです。つまりb、要素とandはz属性（値なし）です。これは、HTMLパーサーが認識するものです。

もちろん、and要素zの実際には受け入れられない属性ですbが、構文の整形式性の観点からb、を要素として認識する必要があります。

それを削除したくない場合は、<として書く必要があります<。それはとにかく正しいHTMLを書く方法です。:)

補遺

（はい、コメントで上記の有名な「正規表現でHTMLを解析できない」という回答を知っていますが、質問の<vs<は、回答で指摘する価値がありました、IMHO。）

1 に答える 1