0

次のように、タグを持つことができるいくつかのhtml文字列があります。

<p> blablabla <img> an image</img> again blablabla</p>

イメージタグを外して、前後の部分を文字列配列で取得したい。

編集: 呼び出した後

String[] splitted = htmlStr.split("regex");

結果は次のようになります。

splitted[0] = "<p> blablabla ";
splitted[1] = "again blablabla</p>"

img タグは文字列ごとに異なる可能性があることに注意してください。たとえば、1 つ以上の属性を持つことができます。

4

4 に答える 4

1

タグが異なる場合があり、 では完全に処理できないため、HTML Parser解析には を使用する必要があります。HTMLsRegex

ただし、この場合、属性に関係なくタグを削除したい場合<img>は、次の正規表現を使用できます。

String str = "<p> blablabla <img> an image</img> again <img href = sadf> " + 
             "asdf asdf </img>blablabla</p>";

str = str.replaceAll("<img\\s*[^>]*?>[^<]*?</img>", "");
System.out.println(str);

出力: -

<p> blablabla  again blablabla</p>

以下のリンクをご覧ください: -

次のような HTML パーサーを使用できます。

于 2012-10-29T12:25:20.140 に答える
0

すべての html タグを削除する場合は、次のコードを使用できます。

string = string.replaceAll("\\<.*?\\>", "");
于 2012-10-29T12:26:40.920 に答える