utf-8 - 一部のみが間違っているエンコーディング間でファイルを変換するにはどうすればよいですか?

Question

すべて UTF-8 としてエンコードする必要がある PHP、HTML、および Javascript ファイルを含むネストされたディレクトリの大規模なセットがあります。ただし、誰かがいくつかのファイルを編集し、ISO-8859-1 エンコーディングで保存しました。残念ながら、それらはすべて UTF-8 ファイルに混在しています。

iconvこのツールを使用して、正しくエンコードされていないファイルを UTF-8 に変換したいと考えています (ここで説明されているように)。主に、ISO-8859-1 は有効だが UTF-8 が無効な文字で問題が発生します。

適切な出発点は、無効な UTF-8 を含むすべてのファイルを見つけることだと思います。これを行う良い方法は何ですか？

間違った文字が表示される可能性があるすべてのケースをこれでキャッチできるわけではないことを認識しています。この混乱を解決する方法について、さらにヒントはありますか?

score 2 · Accepted Answer

これはちょっとしたハックですが、1 回限りの出来事なので、それだけの価値があるかもしれません。指定したエンコーディングを使用してファイルを読み取ることができない場合、iconv は無効なエンコーディングについて文句を言います。したがって、ラッパースクリプトを記述してすべてのファイルを反復処理し、UTF-8 から別のファイルに変換しようとすると、変換できないファイルの UTF-8 が無効になります。

utf-8 - 一部のみが間違っているエンコーディング間でファイルを変換するにはどうすればよいですか?

1 に答える 1

Related

Reference