c - char16_t および char32_t エンディアン

Question

C11 では、ポータブルなワイド char 型のサポートがUTF-16 と UTF-32 にそれぞれchar16_t追加char32_tされました。

ただし、テクニカルレポートでは、これら 2 つのタイプのエンディアンについては言及されていません。

たとえばgcc-4.8.4、x86_64 コンピューターで次のスニペットをコンパイルすると、次のようになり-std=c11ます。

#include <stdio.h>
#include <uchar.h>

char16_t utf16_str[] = u"十六";  // U+5341 U+516D
unsigned char *chars = (unsigned char *) utf16_str;
printf("Bytes: %X %X %X %X\n", chars[0], chars[1], chars[2], chars[3]);

生産します

Bytes: 41 53 6D 51

つまり、リトルエンディアンです。

しかし、この動作はプラットフォーム/実装に依存していますか?それは常にプラットフォームのエンディアンに準拠してchar16_tいchar32_tますか?

score 3 · Accepted Answer

ただし、テクニカルレポートでは、これら 2 つのタイプのエンディアンについては言及されていません。

それはそう。C 標準では、ソースファイル内のマルチバイト文字の表現に関してあまり指定していません。

char16_t utf16_str[] = u"十六"; // U+5341 U+516D
printf("U+%X U+%X\n", utf_16_str[0], utf_16_str[1]);
U+5341 U+516D が生成されます。これは、リトルエンディアンであることを意味します。

しかし、この動作はプラットフォーム/実装に依存していますか?それは常にプラットフォームのエンディアンに準拠していますchar16_tかchar32_t?

はい、あなたがそれを呼ぶように、動作は実装に依存します。C11§5.1.1.2 を参照:

物理ソースファイルのマルチバイト文字は、必要に応じて、実装定義の方法でソース文字セットにマップされます (行末インジケーターに改行文字を導入します)。

つまり、ソースコード内のマルチバイト文字がビッグエンディアンと見なされるかリトルエンディアンと見なされるかは、実装によって定義されます。u"\u5341\u516d"移植性が問題になる場合は、のようなものを使用することをお勧めします。

score 0 · Accepted Answer

UTF-16 と UTF-32 にはエンディアンが定義されていません。これらは通常、ホストのネイティブバイト順でエンコードされます。これが、UTF-16 または UTF-32 文字列のエンディアンを示すために文字列の先頭に挿入できるバイトオーダーマーカー (BOM) がある理由です。

c - char16_t および char32_t エンディアン

3 に答える 3

Related

Reference