0

HTML と XML を消去しようとしている一連のテキスト エントリがあります。私は Java Apache Commons StringEscapeUtils を使用していますが、一般に、 String で次のように使用すると、十分に処理できます。

s = unescapeHtml(s);
s = unescapeXml(s);

しかし、私がこのようなものを持っている場合:

    This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
    &partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
    .7020,cat.TechBiz.rss"/>

Apache ユーティリティは効果がありません。

誰かが別のアプローチを提案できますか?

4

1 に答える 1

2

あなたは使用してみることができますJsoup

String text = Jsoup.parse(html).text();

これにより、すべての HTML が削除されます。

于 2013-10-10T16:03:48.587 に答える