Javaの次の文字列からHTMLタグを削除する必要があります
String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";
これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。
Javaの次の文字列からHTMLタグを削除する必要があります
String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";
これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。
もちろん、「bとz」は削除されます。そのテキストを削除することになっています。HTMLでは、属性を引用符で囲む必要がなく、値を必要としないためです。つまりb
、要素とand
はz
属性(値なし)です。これは、HTMLパーサーが認識するものです。
もちろん、and
要素z
の実際には受け入れられない属性ですb
が、構文の整形式性の観点からb
、を要素として認識する必要があります。
それを削除したくない場合は、<
として書く必要があります<
。それはとにかく正しいHTMLを書く方法です。:)
補遺
(はい、コメントで上記の有名な「正規表現でHTMLを解析できない」という回答を知っていますが、質問の<
vs<
は、回答で指摘する価値がありました、IMHO。)