私は90年代半ばに作成された.htmlファイルのコレクションを持っています。これにはかなりの量の韓国語のテキストが含まれています。HTMLには文字セットのメタデータがないため、もちろん、韓国語のテキストのすべてが正しくレンダリングされません。次の例はすべて、同じテキストの抜粋を使用します。
CodaやTextWranglerなどのテキストエディタでは、テキストは次のように表示されます。
╙╦╝№бя└К▓щ╥НВь╕цль▒Ф▓щ╥НВь╕цль▒Ф
<head>に文字セットのメタデータがない場合、ブラウザによって次のようにレンダリングされます。
Ó˼ü¡ïÀŠ²éÒ‚ì¸æ«ì±”²éÒ‚ì¸æ«ì±” </ p>
<head>にeuc-krメタデータを追加する
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
次のようになりますが、これは判読できないナンセンスです(ネイティブスピーカーによって確認されます)。
沓숩∽핅꿴�귥멩レ콛꿴�귥멩レ콛
私はすべての歴史的な韓国語の文字セットでこのアプローチを試しましたが、それぞれが同様に失敗した結果をもたらしました。また、Beautiful Soupを介して解析してUTF-8にアップグレードしようとしましたが、失敗しました。
Emacsでファイルを表示すると、下位レベルをエンコードしているテキストが明らかになるため、有望なようです。以下は、同じテキストのサンプルです。
\ 323 \ 313 \ 274 \ 374 \ 241 \ 357 \ 300 \ 212 \ 262 \ 351 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224 \ 262 \ 3 \ 51 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224
このテキストエンコーディングを識別してUTF-8にプロモートするにはどうすればよいですか?