java - 2文字間の部分文字列の削除（java）

Question

私はこのようなJava文字列を持っています：

String string = "I <strong>really</strong> want to get rid of the strong-tags!";

そして、タグを削除したいと思います。タグがはるかに長い他の文字列があるので、それらの文字を含む「<>」文字の間のすべてを削除する方法を見つけたいと思います。

1つの方法は、文字列を正規表現と比較する組み込みの文字列メソッドを使用することですが、それらの記述方法がわかりません。

score 21 · Accepted Answer

正規表現を使用してHTMLを解析する場合は注意が必要です（許容できる複雑さのため）。ただし、「単純な」HTMLおよび単純なテキスト（リテラル<またはその>中にないテキスト）の場合、これは機能します。

String stripped = html.replaceAll("<.*?>", "");

score 3 · Accepted Answer

正規表現を回避するには：

String toRemove = StringUtils.substringBetween(string, "<", ">");
String result = StringUtils.remove(string, "<" + toRemove + ">");

複数のインスタンスの場合：

String[] allToRemove = StringUtils.substringsBetween(string, "<", ">");
String result = string;
for (String toRemove : allToRemove) {
  result = StringUtils.remove(result, "<" + toRemove + ">"); 
}

Apache StringUtils関数はnull、空、およびマッチセーフではありません

score 0 · Accepted Answer

あなたは使用する必要があります

String stripped = html.replaceAll("<[^>]*>", "");
String stripped = html.replaceAll("<[^<>]*>", "");

ここで、は、で<[^>]*>始まる部分文字列に一致し<、次に0個以上の文字以外>（または2番目のバージョンを選択した場合は<それ以外の文字）、次に文字に一致します。>>

ご了承ください<.*?>

否定された文字クラスよりも効率が低くなります（貪欲でない正規表現と否定された文字クラスのどちらが優れているかを参照してください）。
複数行にまたがる部分文字列は見つかりませんが（正規表現の複数行にまたがる文字を照合するにはどうすればよいですか？）、、、、およびその他のあまり効率的でないバリエーションで(?s)<.*?>解決できます。<(?s:.)*?><[\w\W]*?>

正規表現のデモを参照してください。

java - 2文字間の部分文字列の削除（java）

3 に答える 3

Related

Reference