http://www.unicode.org/Public/5.1.0/ucd/UCD.html#AlphabeticAlphabetic
で定義されているプロパティを持つ Unicode 文字の範囲のリストが必要です。しかし、どのように検索しても、Unicode 文字データベースでそれらを見つけることができません。誰かがそれらのリストを提供できますか、または指定された Unicode プロパティを持つ文字の検索機能だけを提供できますか?
4 に答える
Unicode Character Database は、ディストリビューション内のすべてのテキスト ファイルで構成されています。昔のようにただのファイルではありません。
Alphabetic プロパティは派生プロパティです。
これにはコードポイント範囲を使用したくありません。物件を上手に使いたい。それは、それらの数が多すぎるためです。unicharsスクリプトを使用すると、漢語やハングルを除いて、基本的な多言語面だけで 1 万以上あることがわかります。
$ unichars '\p{Alphabetic}' | wc -l
10052
他の 16 のアストラル プレーンを含めると、現在 14,000 になります。
$ unichars -a '\p{Alphabetic}' | wc -l
14736
そして、ハングルとハングルを含めると、実際にはアルファベット プロパティが含まれますが、10 万のコード ポイントの屋根を吹き飛ばすだけです。
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
コード ポイント範囲を使用してこれらを具体的に列挙したくないことがお分かりいただけたと思います。その道の先には狂気があります。
ちなみに、unicharsスクリプトが便利だと思うなら、unipropsスクリプトやunnamesスクリプトも気に入るかもしれません。
派生コア プロパティは、他のプロパティから計算できます。
Alphabetic プロパティは次のように定義されます: 生成元: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
したがって、Lu、Ll、Lt、Lm、Lo、Nl のすべての文字と、Other_Alphabetic プロパティを持つすべての文字を取得すると、アルファベット文字が得られます。
ソースからの引用:Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
これらの略語はここで説明されているようです。
優れた検索インターフェイスを提供するUniView Web アプリケーションを見つけました。Letter プロパティを検索すると (Local をオフにして)、14723 件の結果が得られます...