何年にもわたって、私が研究に使用しているデータベースは、SyBase から MySQL、PostgreSQL、そして MySQL に移行されてきました。
さまざまなエンコードの問題のためにデータが壊れないように非常に慎重に行われましたが、残念ながら多くのレコードが破損しました。
たとえば、レコードの 1 つに と記載されていますJòzefina
が、そうである必要がありますJózefina
。
この特定のエンコーディングの問題をプログラムで修正できるかどうか知っている人はいますか?
私はエンコーディングが得意ではありませんが、バイト シーケンスò
をó
などにマップすることはできたようです。
ò
どのエンコーディングがに対応するかを誰かが知っているのではないかと思うó
ので、壊れたテキストから正しいテキストへのエンコーディング マッピング テーブルを手動で作成する必要はなく、自動的に作成します。