2

のようなUnicodeカテゴリのカーディナリティを理解しようとしていますLo。それについての信頼できる情報を見つけることができないようです。たとえば、 Fileformat.info11788は、このカテゴリに文字が含まれるビューを維持し、 Codepoints.netは、基本プレーンに制限されている場合でも、122Pythonは!: と同じくらい低くなります。unicodedata45301

In [219]: Lo=[unichr(c) for c in xrange(65536) 
              if unicodedata.category(unichr(c)) == 'Lo']

In [220]: len(Lo)
Out[220]: 45301

誰かがこれを解決するための信頼できる情報源を私に指摘できますか?!

編集:

len(Lo)Pythonスニペットでの結果は、使用されているUCDのバージョン、つまりPythonのバージョンによって異なります。私の結果は、UCDバージョン5.1を使用するPython 2.6で、UCD5.2を使用するPython2.745877は同じ式を生成し、UCD6.0を使用するPython3.2はおそらくさらに別の数値を生成します。

4

2 に答える 2

2

決定的な情報は、Unicode標準そのものです。特に、Unicode文字データベースに関する情報を提供する文字データベースに関する情報がここにあります。現在の標準には、11788Loに分類されたコードポイントがあります。

于 2012-08-03T08:22:14.360 に答える
1

Pythonのドキュメントを引用するunicodedata

このモジュールは、すべてのUnicode文字の文字プロパティを定義するUnicode文字データベースへのアクセスを提供します。このデータベースのデータは、ftp://ftp.unicode.org/から公開されているUnicodeData.txtファイルバージョン5.2.0に基づいています

モジュールは、UnicodeData File Format 5.2.0で定義されているものと同じ名前と記号を使用します( http://www.unicode.org/reports/tr44/tr44-4.htmlを参照)。次の関数を定義します。

そして、彼らの「私たちについて」のユニコードコンソーシアム:

Unicodeコンソーシアムは、ソフトウェアの国際化標準とデータ、特にすべての最新のソフトウェア製品と標準でのテキストの表現を指定するUnicode標準の開発、維持、および促進に専念する非営利団体です。Unicodeコンソーシアムは、Unicode文字間の動作や関係の定義など、国際化の分野で標準を積極的に開発しています。コンソーシアムは、W3CおよびISOと緊密に連携しています。特に、Unicode規格と同期した国際規格であるISO /IEC10646の維持を担当するISO/IEC / JTC 1 / SC2/WG2と連携しています。

メインページを見ると、現在の規格は6.1(2012年5月)であるため、バージョン5.2(2009年10月)以降、一部の「Lo」文字が再分類されている可能性があります。

チェック: http: //www.unicode.org

于 2012-08-03T08:27:51.743 に答える