text - UTF-8 文字列は常に UTF-16 よりも短くなりますか?

Question

同じテキストの文字列が 2 つある場合、1 つは UTF-8、もう 1 つは UTF-16 です。UTF-8 文字列が常にUTF-16 文字列よりも小さい、または同じサイズである
と想定しても安全ですか? (バイト単位)

score 16 · Accepted Answer

いいえ、通常は UTF-8 テキストの方が短くなりますが、常にそうとは限りません。

U+0800 から U+FFFF までの文字は、UTF-8 で 3 バイトで表されます。

したがって、その範囲内の文字のみ (または大部分) を含むテキストは、UTF-16 よりも UTF-8 で表した方が簡単に長くなる可能性があります。

別の言い方をすると:

5 および 6 バイトシーケンスは UTF-8で定義されていましたが、最新の標準では無効になり、Unicode コードポイントを表す必要がなくなったことに注意してください。

score 3 · Accepted Answer

いいえ。UTF-8 では、文字のコードポイント (数値) を表すのに必要なビット数に応じて、1 つの文字に 3 バイト以上を使用することがあります。

2 に答える 2