java - JavaでU + FFFFを超えるUnicodeへのchar?

Question

Javaでcharを使用してU + FFFFを超えるUnicode文字を表示するにはどうすればよいですか?

次のようなものが必要です（有効な場合）：

char u = '\u+10FFFF';

score 22 · Accepted Answer

char（UTF-16コードユニットを保持する）単一ではできませんが、次を使用できますString：

// This represents U+10FFFF
String x = "\udbff\udfff";

または:

String y = new StringBuilder().appendCodePoint(0x10ffff).toString();

これはサロゲートペア(2 つの UTF-16 コード単位が組み合わさって、基本多言語面を超えた単一の Unicode コードポイントを形成します) です。もちろん、それに対処するには、データを表示するものも必要です...

score 8 · Accepted Answer

を使用する代わりに、クラスStringBuilderで直接見つかった関数を使用することもできます。Character機能は toChars()あり、次の仕様があります。

指定された文字 (Unicode コードポイント) を、配列
に格納されている UTF-16 表現に変換します。char

したがって、サロゲートペアがどのように見えるかを正確に知る必要はなく、コードポイントを直接使用できます。コード例は次のようになります。

int ch = 0x10FFFF;
String s = new String(Character.toChars(ch));

コードポイントのデータ型はであり、ではintないことに注意してくださいchar。

score 1 · Accepted Answer

Unicode 文字は 2 バイトを超える場合があり、通常は 1 つの文字に保持できません。

score 1 · Accepted Answer

ソース

char データ型は、文字を固定幅の 16 ビットエンティティとして定義した元の Unicode 仕様に基づいています。有効なコードポイントの範囲は、Unicode スカラー値として知られる U+0000 から U+10FFFF になりました。

U+0000 から U+FFFF までの文字セットは、Basic Multilingual Plane (BMP) と呼ばれることがあります。コードポイントが U+FFFF より大きい文字は補助文字と呼ばれます。Java 2 プラットフォームは、char 配列と String および StringBuffer クラスで UTF-16 表現を使用します。この表現では、補助文字は char 値のペアとして表されます。最初は高サロゲート範囲 (\uD800-\uDBFF) から、2 番目は低サロゲート範囲 (\uDC00-\uDFFF) からです。

したがって、char 値は、サロゲートコードポイントを含む Basic Multilingual Plane (BMP) コードポイント、または UTF-16 エンコーディングのコード単位を表します。int 値は、補助コードポイントを含むすべての Unicode コードポイントを表します。int の下位 (最下位) 21 ビットは Unicode コードポイントを表すために使用され、上位 (最上位) 11 ビットはゼロでなければなりません。特に指定がない限り、補助文字と代理文字値に関する動作は次のとおりです。

char 値のみを受け入れるメソッドは、補助文字をサポートできません。サロゲート範囲からの char 値を未定義の文字として扱います。たとえば、Character.isLetter('\uD840') は false を返しますが、この特定の値の後に文字列内の下位サロゲート値が続くと文字を表すことになります。

int 値を受け入れるメソッドは、補助文字を含むすべての Unicode 文字をサポートします。たとえば、Character.isLetter(0x2F81A) は、コードポイント値が文字 (CJK 表意文字) を表すため、true を返します。

J2SE API ドキュメントでは、Unicode コードポイントは U+0000 ～ U+10FFFF の範囲の文字値に使用され、Unicode コード単位は UTF-16 エンコーディングのコード単位である 16 ビット char 値に使用されます。

java - JavaでU + FFFFを超えるUnicodeへのchar?

4 に答える 4

Related

Reference