2

この質問はおそらくスタックオーバーフローの境界線であるため、トピックから外れていると思われる場合は事前にお詫び申し上げます。私は多くの言語を含むプログラムを書いていますが、言語をUnicodeポイントにマップするテーブルが必要です。Unicodeに精通している人は、文字がラテン文字、キリル文字などの「ブロック」に分割されていることを知っているでしょう。もちろん、ラテン文字を使用するほとんどの言語はすべてのラテン文字を使用するわけではなく、キリル文字を使用するほとんどの言語は使用します。すべてを使用しないキリル文字など。英語を英語で使用される文字のみに、スペイン語をスペイン語で使用される文字のみにマップするテーブルなどに興味があります。世界中のすべての言語をカバーする必要はありません(これはほぼ不可能)が、少なくともいくつかのより一般的な言語。(それでも、これは多対多の関係を含むかなり広範なテーブルになります。)そのようなテーブルが存在するかどうかはわかりません。(そうでない場合は、これをオープンソースプロジェクトに変えることができます。これは、私にとって、そしておそらく他の人にとっても非常に役立つからです。)

4

1 に答える 1

7

Unicode Common Locale Data RepositoryであるCLDRには、多数の言語の文字コレクションの定義が含まれています。このexemplarCharacters要素は、言語の単語の通常の書き込みに必要な文字を指定します。この要素の現在の定義は、タイプ別チャート:misc.exemplarCharactersページ(書記体系ごとにグループ化)で確認できますが、自動処理の場合は、XMLファイルの方が適している場合があります。exemplarCharacters-other要素には、現在、句読文字の同様のデータが含まれています。

これはおそらく一般的にそのような情報の利用可能な最良の編集ですが、概念的には非常にあいまいであり(言語を書くために使用される文字であるとはどういう意味かを実際に定義しようとはしていません)、さまざまな言語の情報が収集されていますオープンであるが、一般的な品質管理を含まないプロセス。

要素の意味は、LDML仕様の5.6節の文字要素で定義されています。「この<characters>要素は、ロケールで一般的に使用されている文字に関するオプションの情報と、データの送信に通常使用される文字エンコードから選択する場合など、ロケールに適したリソースまたはデータを選択するのに役立つ情報を提供します。ロケールの言語で。」これは、特にUnicodeコンソーシアムのドキュメントでは、すべての言語をカバーするUTF-8を使用できるため、かなり奇妙な視点です。しかし、他にもありますテキストのフォントの選択、入力データの事前チェック、OCRスキャンのパラメータの設定、キーボード設定の定義など、言語で使用される文字に関する情報が役立つ可能性がある問題。これらのコンテキストでは、「言語で使用される文字」という概念に対して異なる定義が必要になる場合があります。

于 2012-06-11T04:23:01.220 に答える