1

Javaの次の文字列からHTMLタグを削除する必要があります

String text = "<html><head></head><body>hi x>a and y<b and z>c</body></html>";

これは正規表現で実行できます。ただし、文字列内の「bとz」も削除されます。これはタグと見なすためです。

4

1 に答える 1

1

もちろん、「bとz」は削除されます。そのテキストを削除することになっています。HTMLでは、属性を引用符で囲む必要がなく、値を必要としないためです。つまりb、要素とandz属性(値なし)です。これは、HTMLパーサーが認識するものです。

もちろん、and要素zの実際には受け入れられない属性ですbが、構文の整形式性の観点からb、を要素として認識する必要があります。

それを削除したくない場合は、<として書く必要があります&lt;。それはとにかく正しいHTMLを書く方法です。:)

補遺

(はい、コメントで上記の有名な「正規表現でHTMLを解析できない」という回答を知っていますが、質問の<vs&lt;は、回答で指摘する価値がありました、IMHO。)

于 2012-06-28T05:03:51.710 に答える