中国語のピンインがサポートされているかどうか知っている人はいますか? ここでは、正しい中国語のピンインで結果が得られます (「ローマ字表記を表示する」リンクを参照)。
ありがとうございました。
中国語のピンインがサポートされているかどうか知っている人はいますか? ここでは、正しい中国語のピンインで結果が得られます (「ローマ字表記を表示する」リンクを参照)。
ありがとうございました。
Google AJAX 言語 API でピンインへの変換がサポートされているかどうかはわかりませんが、サポートされていない場合でも、まずまずの変換を行うのはそれほど難しくありません。(ピンインは非常に損失が多いため、ピンインから漢字 (文字) への逆変換は、はるかにトリッキーです。)
自分で変換するには、Unihanデータベースのダウンロード可能なバージョンである Unihan.zip を取得します。実際に気になるファイルは Unihan_Readings.txt です。また、気にしないものがたくさん含まれており、かなり非効率的な方法で保存されているため、大きなファイルサイズについてあまり心配する必要はありません. 関心のあるものを抽出し、より効率的な方法で保存する必要があります。
その中には、次のようなタブ区切りの行があります。
U+597D kCantonese hou2 hou3
U+597D kDefinition good, excellent, fine; well
U+597D kHangul 호
U+597D kHanyuPinlu hao3(6060) hao1(142) hao4(115)
U+597D kHanyuPinyin 21028.010:hǎo,hào
U+597D kJapaneseKun KONOMU SUKU YOI
U+597D kJapaneseOn KOU
U+597D kKorean HO
U+597D kMandarin HAO3 HAO4
U+597D kTang *xɑ̀u *xɑ̌u
U+597D kVietnamese háo
U+597D kXHC1983 0445.030:hǎo 0448.030:hào
左の列 (「U+597D」) は Unicode コードポイント、中央の列は属性名、右の列は属性値です。kHanyuPinyin 属性または kMandarin 属性のいずれかを抽出できます。基本的に同じ情報をエンコードします。扱いやすい方のフォーマットを使用してください。(hǎo == HAO3, hào == HAO4, それが自明でない場合)
一部の文字 (ここで選択した例など) には、複数の発音があることに注意してください。これが1つのトリッキーなビットです。必要な精度によっては、リストされている最初のローマ字表記を使用するだけで済む場合があります。これらは頻度の高い順になっています。(実際には、これは kHanyuPinyin が kMandarin と少し異なる場所の 1 つです。実際には、発音の複数のリストがあり、それぞれが頻度順に並べられています。)
中国語から中国語に翻訳することで、API をだましてピンインを与えることができます。サンプルリンク.
Google 翻訳には、2 つの理由で UNIHAN より優れている「show/hide romanization」が含まれています。まず、既知の単語が適切な方法で論理的にグループ化されます (少なくともそうしようとします)。第二に、漢字には複数の可能な発音があります。どのピンイン音訳が正しいかを判断するのは簡単な問題ではありません。それが翻訳エンジンの役割です。