Javaの次の文字列からHTMLタグを削除する必要があります
String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";
これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。
Javaの次の文字列からHTMLタグを削除する必要があります
String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";
これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。
もちろん、「bとz」は削除されます。そのテキストを削除することになっています。HTMLでは、属性を引用符で囲む必要がなく、値を必要としないためです。つまりb、要素とandはz属性(値なし)です。これは、HTMLパーサーが認識するものです。
もちろん、and要素zの実際には受け入れられない属性ですbが、構文の整形式性の観点からb、を要素として認識する必要があります。
それを削除したくない場合は、<として書く必要があります<。それはとにかく正しいHTMLを書く方法です。:)
補遺
(はい、コメントで上記の有名な「正規表現でHTMLを解析できない」という回答を知っていますが、質問の<vs<は、回答で指摘する価値がありました、IMHO。)