私はMySQLデータベースからのエクスポートを受け取りました。これは、時間の経過とともにエンコーディングが多少混乱したようで、 や などの同じ文字を表すより問題のある文字が混在してHTML char codes
い& uuml;
ます。ファイルにある程度の一貫性を戻し、すべてを正しいラテン文字に変換するのが私の仕事です。ü
Ã
ú
ó
私が扱っている種類の文字列の例は
Desinfektionslãsungstãƒâ¼cher fãâ¼r Flãâ¤chen
に等しくする必要があります
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
ü
C#/.Net 4.5 で、やÃ
toなどを正常に再エンコードする方法はありUTF-8
ますか?
それ以外の場合、どのようなアプローチが推奨されますか?
また¶
、上記の例の文字列の段落文字は、実際の段落文字ですか、それとも他の文字の組み合わせの一部ですか?
以下の検索と置換を行う必要がある場合に備えて、ルックアップテーブルを作成しましたが、それがどの程度完全かはわかりません。
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
– -> –
ç -> ç
ª -> ª
º -> º
à -> à