unicode - ICU / CLDR / UCA でサポートされている日本語のソート / 照合順はどれですか?

Question

日本語には、英語のアルファベット順と同等の並べ替え順序が複数あると思います。

少なくとも発音に基づくもの (仮名は歴史的に 2 つの順序を使用していると思います) と、部首 + 画数に基づくものがあると思います。中国語にも部首/画数に基づく複数の順序がありますが、Unicode Han Unificationにより、同じ文字でも中国語と日本語で画数が異なる場合があります。

Unicode での並べ替え順序の標準は、アルゴリズムのUCAを使用したデータのCLDRであり、参照実装はICUであると私は信じています。

実装は一般的に標準に遅れをとっており、この情報を正規の情報源まで追跡することは困難です。

language specifier を使用してコレーターを設定した場合ja、どのソート順が使用されると予想されますか?

いくつかが日本語で利用可能である場合、またはある時点で利用可能になる予定である場合、それらにはどの指定子を使用する必要がありますか? たとえば、スペイン語の伝統的なアルファベット順の指定子はですes-u-co-trad。

score 3 · Accepted Answer

CLDR (および ICU) によって提供される基本的な日本語の並べ替え順序は、JIS X 4061-1996で指定された並べ替え順序に基づいています。

ja-u-co-unihan部首を筆順でソートするための規則を含む照合も利用できます (その後に上記の標準規則が続きます) 。これは、実際に部首をソートしている場合にのみ役立ちます。

漢字をより正確に並べ替える必要がある場合 (たとえば、漢字が使用されている単語の読み方によって)、辞書を使用してある種の形態素分析を実行して、使用する読み方を見つけてから、Unicode 照合順序を適用する必要があります。それらのアルゴリズム。

1 に答える 1