0

ボポモフォおよび/またはピンインでのすべての中国語の標準中国語の発音を含むデータセットを探しています。また、自分のコード ベースにコピーできるオープン ソース データセットも必要です。

4

2 に答える 2

4

Unihan データベースをお探しのようです。Unihan データベースは、Unicode コンソーシアムによって維持されています。

Unihan データベースは、Unicode 標準に含まれる CJK Unified Ideographs に関する Unicode コンソーシアムの集合的な知識のリポジトリです。これには、他のコード化文字セットとの間の変換を可能にするマッピング データと、漢表意文字を使用するさまざまな言語のサポートを実装するのに役立つ追加情報が含まれています。

例として、爱</a>のデータを次に示します。

ユニハンデータベースの構成と内容について説明します。データが何を参照しているのかを理解するために、必ずそれを読んでください。

これが必要な情報である場合は、このすべてのデータを含むZIP アーカイブをダウンロードできます。

Unihan データベースには、ボポモフォ (注音) の発音はありませんが、ピンインの読みはあります。ピンインから注音への変換は簡単です。あなたのためにそれを行うことができるオンラインツールがたくさんあります.

ライセンスの問題に関しては、Unihan データベースのデータ ファイルには自由な著作権表示があります。そのため、独自のソフトウェアでそのデータを使用する際に問題が発生することはありません。

于 2014-02-15T12:55:50.163 に答える
0

これは少し遅いエントリですが、昨年同じものを探していて、さまざまなデータセットに基づいて独自のキャラクター/ボポモフォデータベースをコンパイルすることになりました. 私はこれを完全に自分のものと呼ぶのに十分な作業を行ったので、チェックしてください! bopomofo でソートするために作成した ruby​​gem の一部です (データベースの照合設定を変更できないシステムがありました) https://github.com/nallan/ab-chi

于 2014-03-04T17:40:03.913 に答える