1

すべて UTF-8 としてエンコードする必要がある PHP、HTML、および Javascript ファイルを含むネストされたディレクトリの大規模なセットがあります。ただし、誰かがいくつかのファイルを編集し、ISO-8859-1 エンコーディングで保存しました。残念ながら、それらはすべて UTF-8 ファイルに混在しています。

iconvこのツールを使用して、正しくエンコードされていないファイルを UTF-8 に変換したいと考えています (ここで説明されているように)。主に、ISO-8859-1 は有効だが UTF-8 が無効な文字で問題が発生します。

適切な出発点は、無効な UTF-8 を含むすべてのファイルを見つけることだと思います。これを行う良い方法は何ですか?

間違った文字が表示される可能性があるすべてのケースをこれでキャッチできるわけではないことを認識しています。この混乱を解決する方法について、さらにヒントはありますか?

4

1 に答える 1

2

これはちょっとしたハックですが、1 回限りの出来事なので、それだけの価値があるかもしれません。指定したエンコーディングを使用してファイルを読み取ることができない場合、iconv は無効なエンコーディングについて文句を言います。したがって、ラッパー スクリプトを記述してすべてのファイルを反復処理し、UTF-8 から別のファイルに変換しようとすると、変換できないファイルの UTF-8 が無効になります。

于 2012-10-04T19:34:26.757 に答える