数千の text/html ファイルを含む CMS があります。ユーザーがさまざまな文字エンコーディング (utf-8、utf-8 w BOM、windows 1252、iso-8859-1) を使用して text/html ファイルをアップロードしていることが判明しました。
これらのファイルが読み込まれ、応答に書き込まれると、CMS のフレームワークは、応答の content-type 属性に charset=UTF-8 を強制します。
このため、UTF-8 以外のコンテンツは、文字化けした文字 (「ネイティブ」文字エンコーディングから UTF-8 への正しい文字変換がない場合、?、黒いひし形など) でユーザーに表示されます。また、これらのドキュメントには、文字セットを示すメタデータが添付されていません。私の知る限り、それらがどの文字セットであるかを知る唯一の方法は、テキスト レンダリング アプリ (Firefox、Notepadd++ など) でそれらを見て、「 」 コンテンツで、「見た目」が正しいかどうかを確認します。
不明なエンコーディングのファイルを自動的に/インテリジェントに UTF-8 に変換する方法を知っている人はいますか? これは統計モデリングで達成できると読んだことがありますが、それは私の頭の上にあるものです。
問題への最善のアプローチ方法についての考えは?
ありがとう