ボポモフォおよび/またはピンインでのすべての中国語の標準中国語の発音を含むデータセットを探しています。また、自分のコード ベースにコピーできるオープン ソース データセットも必要です。
2 に答える
Unihan データベースをお探しのようです。Unihan データベースは、Unicode コンソーシアムによって維持されています。
Unihan データベースは、Unicode 標準に含まれる CJK Unified Ideographs に関する Unicode コンソーシアムの集合的な知識のリポジトリです。これには、他のコード化文字セットとの間の変換を可能にするマッピング データと、漢表意文字を使用するさまざまな言語のサポートを実装するのに役立つ追加情報が含まれています。
例として、爱</a>のデータを次に示します。
ユニハンデータベースの構成と内容について説明します。データが何を参照しているのかを理解するために、必ずそれを読んでください。
これが必要な情報である場合は、このすべてのデータを含むZIP アーカイブをダウンロードできます。
Unihan データベースには、ボポモフォ (注音) の発音はありませんが、ピンインの読みはあります。ピンインから注音への変換は簡単です。あなたのためにそれを行うことができるオンラインツールがたくさんあります.
ライセンスの問題に関しては、Unihan データベースのデータ ファイルには自由な著作権表示があります。そのため、独自のソフトウェアでそのデータを使用する際に問題が発生することはありません。
これは少し遅いエントリですが、昨年同じものを探していて、さまざまなデータセットに基づいて独自のキャラクター/ボポモフォデータベースをコンパイルすることになりました. 私はこれを完全に自分のものと呼ぶのに十分な作業を行ったので、チェックしてください! bopomofo でソートするために作成した rubygem の一部です (データベースの照合設定を変更できないシステムがありました) https://github.com/nallan/ab-chi