javax.xml.transform.Transformer を使用して HTML コンテンツを取得し、XML ドキュメントに解析しています (これを行うために Crouton/TagSoup の組み合わせを使用しています)。ただし、これは私の問題であるため、それほど重要ではないと思います。
Transformer.transform() プロセスの出力をダンプすると、出力で、©
実際のシンボル (この場合は著作権シンボル) に変換されていることがわかります。
最終的に、このコンテンツは HTML ファイルとして再保存されますが©
、ファイルに表示される代わりに、この特殊文字が挿入されます。これは、HTML 標準では使用すべきではありません。
既にエンコードされた HTML 文字が実際のシンボルに変換されるのをトランスフォーマーが無視するようにする方法はありますか?