私の問題は次のとおりです。テキスト ノードに UTF-8 バージョンの開始二重引用符と終了二重引用符が部分的に含まれている XML ファイルを読み込んでいます。テキストが抽出され、3999 バイトに短縮され、新しい XML 形式に変換され、ファイルとして保存されます。
入力ファイルの Notepad++ では両方の記号が正しく表示されますが、出力ファイルには無効な utf-8 文字が含まれており、Notepad++ でさえ表示できません。
開始の二重引用符は正しく出力されますが、終了の二重引用符は正しく表示されません。
Hex-Editor を使用して、コード単位が何らかの形で変更されていることがわかりました。
E2 80 9D
入力ファイルで
E2 80 3F
出力ファイルで。xml 解析に sax-parser を使用しています。
このような動作を引き起こす既知のバグはありますか?