encoding="IBM1047" として宣言されている XML ファイルがたくさんありますが、次のようには見えません。
- iconv を使用して IBM1047 から UTF-8 または ISO8859-1 (Latin 1) に変換すると、判読できないゴミになります。
- file -i <name_of_file> は「不明な 8 ビット エンコーディング」と表示されます
- XML パーサーによって解析されると、パーサーはプロローグの前にテキストがあると不平を言いますが、ありません。XML宣言のエンコーディングを別のものに変更すると、このエラーは発生しません
これらのファイルの実際のエンコーディングを調べるとよいでしょう (前述の「file -i」と「enca」を試しましたが、スラブ言語に限定されています (ファイルはフランス語です))。
これらのファイルがどのように生成されるかについては、ほとんど制御できません。実際のエンコーディングを見つけることはできませんが、ファイルが実際には IBM1047 ではないことを決定的に証明できれば、プロデューサーに何かしてもらうことができます。
どうやって証明するの?
いくつかの特殊文字:
- 「é」は「©」
- 「ア」は「エ」
- 「è」は「Û」です
- 「ê」は「ª」です