java - Java UTF-16 エンコーディングコード

Question

Java で Unicode コードポイント (整数) を char 配列 (バイト) にエンコードする関数は、基本的に次のとおりです。

return new char[] { (char) codePoint };

これは、整数値から char への単なるキャストです。

このキャストが実際にどのように行われるか、整数値から UTF-16 でエンコードされた文字に変換するためのキャストの背後にあるコードを知りたいです。私はJavaソースコードでそれを探してみましたが、運がありませんでした.

score 9 · Accepted Answer

どの機能について話しているのかわかりません。

UTF-16 がどのように定義されたかにより、有効なintコードポイントのキャストは、基本的な多言語面のコードポイントに対して機能します。charU+FFFF を超えるものを変換するには、Character.toChars(int)を使用して UTF-16 コード単位に変換する必要があります。アルゴリズムはRFC 2781で定義されています。

score 0 · Accepted Answer

コードポイントは文字にマップされる単なる数値であり、実際の変換は行われません。Unicode コードポイントは 16 進数で指定されるため、codePoint が 16 進数であっても、その文字 (またはグリフ) にマップされます。

score 0 · Accepted Answer

acharは Java で UTF-16 データを保持するように定義されているため、これですべてです。入力がの場合(つまり、U+10000 以上の Unicode コードポイントを表すことができる場合)のみ、何らかの計算が必要です。intすべてのchar値は既に UTF-16 です。

score 0 · Accepted Answer

Java のすべてcharのは、内部的に UTF-16 で表されます。これは、整数値をそれにマッピングしているだけですchar。

score 0 · Accepted Answer

0

また、Java プラットフォームでは、char 配列はすでに UTF-16 です。

于 2011-05-03T20:29:05.850 に答える

java - Java UTF-16 エンコーディング コード

5 に答える 5

Related

Reference

java - Java UTF-16 エンコーディングコード