python - Loカテゴリのカーディナリティ

Question

のようなUnicodeカテゴリのカーディナリティを理解しようとしていますLo。それについての信頼できる情報を見つけることができないようです。たとえば、 Fileformat.info11788は、このカテゴリに文字が含まれるビューを維持し、 Codepoints.netは、基本プレーンに制限されている場合でも、122Pythonは！：と同じくらい低くなります。unicodedata45301

In [219]: Lo=[unichr(c) for c in xrange(65536) 
              if unicodedata.category(unichr(c)) == 'Lo']

In [220]: len(Lo)
Out[220]: 45301

誰かがこれを解決するための信頼できる情報源を私に指摘できますか？！

編集：

len(Lo)Pythonスニペットでの結果は、使用されているUCDのバージョン、つまりPythonのバージョンによって異なります。私の結果は、UCDバージョン5.1を使用するPython 2.6で、UCD5.2を使用するPython2.745877は同じ式を生成し、UCD6.0を使用するPython3.2はおそらくさらに別の数値を生成します。

score 2 · Accepted Answer

決定的な情報は、Unicode標準そのものです。特に、Unicode文字データベースに関する情報を提供する文字データベースに関する情報がここにあります。現在の標準には、11788Loに分類されたコードポイントがあります。

score 1 · Accepted Answer

Pythonのドキュメントを引用するunicodedata：

このモジュールは、すべてのUnicode文字の文字プロパティを定義するUnicode文字データベースへのアクセスを提供します。このデータベースのデータは、ftp：//ftp.unicode.org/から公開されているUnicodeData.txtファイルバージョン5.2.0に基づいています。

モジュールは、UnicodeData File Format 5.2.0で定義されているものと同じ名前と記号を使用します（ http://www.unicode.org/reports/tr44/tr44-4.htmlを参照）。次の関数を定義します。

そして、彼らの「私たちについて」のユニコードコンソーシアム：

Unicodeコンソーシアムは、ソフトウェアの国際化標準とデータ、特にすべての最新のソフトウェア製品と標準でのテキストの表現を指定するUnicode標準の開発、維持、および促進に専念する非営利団体です。Unicodeコンソーシアムは、Unicode文字間の動作や関係の定義など、国際化の分野で標準を積極的に開発しています。コンソーシアムは、W3CおよびISOと緊密に連携しています。特に、Unicode規格と同期した国際規格であるISO /IEC10646の維持を担当するISO/IEC / JTC 1 / SC2/WG2と連携しています。

メインページを見ると、現在の規格は6.1（2012年5月）であるため、バージョン5.2（2009年10月）以降、一部の「Lo」文字が再分類されている可能性があります。

チェック： http： //www.unicode.org

python - Loカテゴリのカーディナリティ

2 に答える 2

Related

Reference