6

私は90年代半ばに作成された.htmlファイルのコレクションを持っています。これにはかなりの量の韓国語のテキストが含まれています。HTMLには文字セットのメタデータがないため、もちろん、韓国語のテキストのすべてが正しくレンダリングされません。次の例はすべて、同じテキストの抜粋を使用します。

CodaやTextWranglerなどのテキストエディタでは、テキストは次のように表示されます。

╙╦╝№бя└К▓щ╥НВь╕цль▒Ф▓щ╥НВь╕цль▒Ф

<head>に文字セットのメタデータがない場合、ブラウザによって次のようにレンダリングされます。

Ó˼ü¡ïÀŠ²éÒ‚ì¸æ«ì±”²éÒ‚ì¸æ«ì±” </ p>


<head>にeuc-krメタデータを追加する

<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

次のようになりますが、これは判読できないナンセンスです(ネイティブスピーカーによって確認されます)。

沓숩∽핅꿴�귥멩レ콛꿴�귥멩レ콛


私はすべての歴史的な韓国語の文字セットでこのアプローチを試しましたが、それぞれが同様に失敗した結果をもたらしました。また、Beautiful Soupを介して解析してUTF-8にアップグレードしようとしましたが、失敗しました。

Emacsでファイルを表示すると、下位レベルをエンコードしているテキストが明らかになるため、有望なようです。以下は、同じテキストのサンプルです。

\ 323 \ 313 \ 274 \ 374 \ 241 \ 357 \ 300 \ 212 \ 262 \ 351 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224 \ 262 \ 3 \ 51 \ 322 \ 215 \ 202 \ 354 \ 270 \ 346 \ 253 \ 354 \ 261 \ 224


このテキストエンコーディングを識別してUTF-8にプロモートするにはどうすればよいですか?

4

3 に答える 3

6

emacsが明らかにしたこれらの8進コードはすべて254(または8進で\ 376)未満であるため、ASCII範囲で独自のマッピングを使用した古いUnicode以前のフォントの1つのように見えます。これが正しければ、それが意図されたフォントを理解し、それを見つけて、おそらく自分で変換を行う必要があります。

それは苦痛です。何年も前に、私はいくつかの人気のあるUnicode以前のギリシャ語フォントに対して同様のことをしました:http://litot.es/unicode-converter/(コード:https ://github.com/seanredmond/Encoding-Converter )

于 2012-06-17T17:36:57.087 に答える
0

結局のところ、それは正しい文字エンコードを見つけて、iconvを使用することです。

iconv --list

使用可能なすべてのエンコーディングを表示します。「KR」を検索すると、少なくとも私のシステムはCSEUCKR、CSISO2022KR、EUC-KR、ISO-2022-KR、ISO646-KRを実行できることがわかります。ウィキペディアによると、韓国語はBIG5HKSCS、CSKSC5636、KSC5636でもあります。合理的な何かが飛び出すまで、それらすべてを試してください。

于 2012-06-17T17:52:00.900 に答える
0

このスレッドが古い場合でも、それはまだ問題であり、ファイルを一括で変換する方法が見つからないため(韓国語バージョンのWindows7を使用する以外)、現在、Googleドキュメントのようなクラウドサービスを備えたNaverを使用していますそして、それらの奇妙にエンコードされたファイルをそこにアップロードすると、それらを非常にうまく処理します。テキストを編集してコピーするだけで、他の場所にコピーすると標準に戻ります。私が好きな種類の解決策ではありませんが、それは数人の通行人を救うかもしれません。IDでクラウドアカウントに登録できます。ちなみに韓国に住んでいなくても、最低限の英語が必要です。

于 2020-05-31T17:42:56.083 に答える