1

http://www.joelonsoftware.com/articles/Unicode.htmlでユニコードについて読んでいました。Joel 氏によると、UCS-2 はすべての Unicode 文字を 2 バイトでエンコードしますが、UTF-8 は一部の Unicode 文字をエンコードするのに最大 6 バイトかかる場合があります。UTF-8 でエンコードされた 6 バイトの Unicode 文字が UCS-2 でどのようにエンコードされるか、例を挙げて説明していただけますか?

4

2 に答える 2

3

UCS-2 は可能な限りすべてを 2 バイトで格納し、そのスペースに収まらないコード ポイントについては何もしません。これが、UCS-2 が現在ほとんど役に立たない理由です。

代わりに、すべての 2 バイト シーケンスに対して UCS-2 のように見える UTF-16 がありますが、サロゲート ペアつまり2 バイト シーケンスのペアも使用できます。これらを使用して、残りのコード ポイントは合計 4 バイトを使用してエンコードできます。

于 2013-11-26T14:28:55.380 に答える