3

中国語のピンインがサポートされているかどうか知っている人はいますか? ここでは、正しい中国語のピンインで結果が得られます (「ローマ字表記を表示する」リンクを参照)。

ありがとうございました。

4

3 に答える 3

2

Google AJAX 言語 API でピンインへの変換がサポートされているかどうかはわかりませんが、サポートされていない場合でも、まずまずの変換を行うのはそれほど難しくありません。(ピンインは非常に損失が多いため、ピンインから漢字 (文字) への逆変換は、はるかにトリッキーです。)

自分で変換するには、Unihanデータベースのダウンロード可能なバージョンである Unihan.zip を取得します。実際に気になるファイルは Unihan_Readings.txt です。また、気にしないものがたくさん含まれており、かなり非効率的な方法で保存されているため、大きなファイルサイズについてあまり心配する必要はありません. 関心のあるものを抽出し、より効率的な方法で保存する必要があります。

その中には、次のようなタブ区切りの行があります。

U+597D  kCantonese      hou2 hou3
U+597D  kDefinition     good, excellent, fine; well
U+597D  kHangul         호
U+597D  kHanyuPinlu     hao3(6060) hao1(142) hao4(115)
U+597D  kHanyuPinyin    21028.010:hǎo,hào
U+597D  kJapaneseKun    KONOMU SUKU YOI
U+597D  kJapaneseOn     KOU
U+597D  kKorean         HO
U+597D  kMandarin       HAO3 HAO4
U+597D  kTang           *xɑ̀u *xɑ̌u
U+597D  kVietnamese     háo
U+597D  kXHC1983        0445.030:hǎo 0448.030:hào

左の列 (「U+597D」) は Unicode コードポイント、中央の列は属性名、右の列は属性値です。kHanyuPinyin 属性または kMandarin 属性のいずれかを抽出できます。基本的に同じ情報をエンコードします。扱いやすい方のフォーマットを使用してください。(hǎo == HAO3, hào == HAO4, それが自明でない場合)

一部の文字 (ここで選択した例など) には、複数の発音があることに注意してください。これが1つのトリッキーなビットです。必要な精度によっては、リストされている最初のローマ字表記を使用するだけで済む場合があります。これらは頻度の高い順になっています。(実際には、これは kHanyuPinyin が kMandarin と少し異なる場所の 1 つです。実際には、発音の複数のリストがあり、それぞれが頻度順に並べられています。)

于 2010-01-08T19:05:08.880 に答える
1

中国語から中国語に翻訳することで、API をだましてピンインを与えることができます。サンプルリンク.

于 2010-09-15T13:30:03.190 に答える
0

Google 翻訳には、2 つの理由で UNIHAN より優れている「show/hide romanization」が含まれています。まず、既知の単語が適切な方法で論理的にグループ化されます (少なくともそうしようとします)。第二に、漢字には複数の可能な発音があります。どのピンイン音訳が正しいかを判断するのは簡単な問題ではありません。それが翻訳エンジンの役割です。

于 2010-04-03T18:11:07.430 に答える