HTML と XML を消去しようとしている一連のテキスト エントリがあります。私は Java Apache Commons StringEscapeUtils を使用していますが、一般に、 String で次のように使用すると、十分に処理できます。
s = unescapeHtml(s);
s = unescapeXml(s);
しかし、私がこのようなものを持っている場合:
This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
&partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
.7020,cat.TechBiz.rss"/>
Apache ユーティリティは効果がありません。
誰かが別のアプローチを提案できますか?