unicode - 大文字の utf8 文字は常に小文字のバリアントと同じバイト数ですか?

Question

明らかに、ラテンアルファベットにも当てはまります。しかし、私はこれを、言語と Unicode 仕様にまたがる概念的な意味で尋ねています。

実際には、これは 2 つの文字列を比較するために思いつきました。それらがすべての言語で同じバイト数ではないことを既に知っている場合、同じ文字列の異なる「ケース」バージョンではないという十分な保証を考えることができますか?

score 9 · Accepted Answer

いいえ。

69UTF-8のオクテット値を持つ U+0069 "i" を考えてみましょう。大文字形式の U+0130 "İ" では、このコードポイントは UTF-8 シーケンスを形成しますC4 B0。

必須の注意: 大文字と小文字はロケールに依存します。

score 5 · Accepted Answer

Unicode 標準には、これを保証する原則や不変条件はありません。私は特に、アクセント付きの大文字について心配します。ケース全体で前構成と非前構成の間に不一致がある可能性があります。ただし、問題の例を挙げることはできません。

2 に答える 2