unicode.orgによって提案されているように、Unicode文字を小文字に変換するための標準的なアルゴリズムを知りたいです。
また、ほとんどのプログラミング言語はこの提案された標準に準拠していますか?
unicode.orgによって提案されているように、Unicode文字を小文字に変換するための標準的なアルゴリズムを知りたいです。
また、ほとんどのプログラミング言語はこの提案された標準に準拠していますか?
unicode.orgによって提案されているように、Unicode文字を小文字に変換するための標準的なアルゴリズムを知りたいです。
基本的なアルゴリズムは、個々の文字の小文字を連結することです(UnicodeData.txtの最後から2番目の列で定義されています)。複数文字のマッピング(İ→īとiの上に追加のCOMBINING DOT)、条件付きマッピング(単語の最後にΣ→σ、それ以外の場合はσ)、および言語に依存するルール(トルコのドットレスのようにı)。
また、ほとんどのプログラミング言語はこの提案された標準に準拠していますか?
Javaはそうします。Pythonは基本的なルールを実装していますが、特別なルールは実装していません。また、Cには標準化されたUnicodeサポートがまったくありません。
.NETはUnicodeをサポートしており、大文字と小文字を切り替える組み込み関数を提供します。これはおそらく他のいくつかの言語にも当てはまります。
プログラミング言語は、Unicodeをどれだけうまくサポートするかによって異なります。ほとんどの場合、組み込み型としてUnicode文字はありません。通常、ライブラリで処理されるか、OS呼び出しによって処理されます。
たとえば、C ++にはネイティブのUnicode文字タイプはありませんが、stl(言語の一部として定義されている)でロケールがサポートされています。Adaには、ネイティブタイプのWide_Characterと、それを操作するためのライブラリサポートがあります。