JSOUP を使用して、要素の innerHTML にアクセスし、エスケープ文字を削除して、innerHTML を置き換えることができます。
Elements elements = doc.select('span');
for(Element e : elements) {
e.html( e.html().replaceAll("&","") );
}
上記の例では、問題の文字を含むすべての要素のセレクターを使用して、すべての要素のコレクションを取得します。&
その後、を空の文字列または任意の文字に置き換えます。
&
さらに、それが文字のエスケープ コードであることを知っておく必要があります&
。文字をエスケープしない&
と、HTML 検証の問題が発生する可能性があります。あなたの場合、追加情報がなければ、本当にそれらを排除したいだけだと思います。そうでない場合は、これが開始に役立ちます。幸運を!
末尾の数字を削除する必要がある場合:
// eliminate ampersand and all trailing numbers
e.html( e.html().replaceAll("&[0-9]*","") );
正規表現の詳細については、Javadocs on Regex Patternを参照してください。