0

CJK をラテン語 (ピンイン、ローマ字など) に音訳できるプログラムを作成しようとしています。たとえば、中国語、日本語、または韓国語のドキュメントを入力として指定すると、ラテン語に翻字されたバージョンが出力として取得されます。

私はこの分野では新しいので、ここで我慢してください。

明らかに、先に進む前に、まず言語の種類 (中国語、日本語、または韓国語) を検出する必要があります。次に、これまでに理解したように、文字変換を行うには、テキストを単語に分割する必要があります。これらの言語では単語間にスペースがないためです。これは単語分割と呼ばれます。最後に、必要な単語を見つけた後、それらをラテン語に音訳する必要があります。

だからここに私の質問があります:

  1. 私は C/C++ でオープン ソースのものを探しているので、文字変換の仕事をするライブラリはたくさんあります (実際にはそうではありません! いくつか言うとよいでしょう)。Adson (中国語のみ) と ICU4C を見つけました。Adson から複製された Git リポジトリがコンパイルされませんでした。また、ICU4C のシンプルでわかりやすいチュートリアルを見つけることができませんでした。ICU4C の使用法に関するチュートリアルを見つけるにはどうすればよいですか? CJK をラテン語に音訳する他のライブラリを知っていますか? 正解率が高ければ (~90%)、C++ で書かれていることを忘れることができます。
4

1 に答える 1

1

ICU: there are examples in http://userguide.icu-project.org/transforms/general and ICU 50 now has CJK word segmentation. The uconv sample can be used with something like uconv -f utf-8 -t utf-8 -x 'Any-Latin' to go through Any-Latin transform. That doesn't take language into account, though.

于 2012-11-20T05:16:01.573 に答える