明らかに、ラテン アルファベットにも当てはまります。しかし、私はこれを、言語と Unicode 仕様にまたがる概念的な意味で尋ねています。
実際には、これは 2 つの文字列を比較するために思いつきました。それらがすべての言語で同じバイト数ではないことを既に知っている場合、同じ文字列の異なる「ケース」バージョンではないという十分な保証を考えることができますか?
明らかに、ラテン アルファベットにも当てはまります。しかし、私はこれを、言語と Unicode 仕様にまたがる概念的な意味で尋ねています。
実際には、これは 2 つの文字列を比較するために思いつきました。それらがすべての言語で同じバイト数ではないことを既に知っている場合、同じ文字列の異なる「ケース」バージョンではないという十分な保証を考えることができますか?
いいえ。
69
UTF-8のオクテット値を持つ U+0069 "i" を考えてみましょう。大文字形式の U+0130 "İ" では、このコード ポイントは UTF-8 シーケンスを形成しますC4 B0
。
必須の注意: 大文字と小文字はロケールに依存します。
Unicode 標準には、これを保証する原則や不変条件はありません。私は特に、アクセント付きの大文字について心配します。ケース全体で前構成と非前構成の間に不一致がある可能性があります。ただし、問題の例を挙げることはできません。