XML ファイル (OSM データ) を expat で解析しようとしていますが、expat で解析できない Unicode 文字を含む行があります。
<tag k="name"
v="абвгдежзиклмнопр�?туфхцчшщьыъ�?ю�?�?БВГДЕЖЗИКЛМ�?ОПРСТУФХЦЧШЩЬЫЪЭЮЯ" />
<tag k="name" v="Cin\x8e? Rex" />
(XMLファイルの冒頭行のエンコードは「UTF-8」)
ファイルがかなり古いため、エラーが発生した可能性があります。最新のファイルでは、UTF-8 エラーは表示されず、正常に解析されます。しかし、私のプログラムが壊れたシンボルに遭遇した場合、どのような回避策を講じることができますか? bz2 コーデック (圧縮ファイルを解析します) と utf-8 コーデックを結合して、壊れた文字を無視するか、「?」に変更することはできますか?