CJK をラテン語 (ピンイン、ローマ字など) に音訳できるプログラムを作成しようとしています。たとえば、中国語、日本語、または韓国語のドキュメントを入力として指定すると、ラテン語に翻字されたバージョンが出力として取得されます。
私はこの分野では新しいので、ここで我慢してください。
明らかに、先に進む前に、まず言語の種類 (中国語、日本語、または韓国語) を検出する必要があります。次に、これまでに理解したように、文字変換を行うには、テキストを単語に分割する必要があります。これらの言語では単語間にスペースがないためです。これは単語分割と呼ばれます。最後に、必要な単語を見つけた後、それらをラテン語に音訳する必要があります。
だからここに私の質問があります:
- 私は C/C++ でオープン ソースのものを探しているので、文字変換の仕事をするライブラリはたくさんあります (実際にはそうではありません! いくつか言うとよいでしょう)。Adson (中国語のみ) と ICU4C を見つけました。Adson から複製された Git リポジトリがコンパイルされませんでした。また、ICU4C のシンプルでわかりやすいチュートリアルを見つけることができませんでした。ICU4C の使用法に関するチュートリアルを見つけるにはどうすればよいですか? CJK をラテン語に音訳する他のライブラリを知っていますか? 正解率が高ければ (~90%)、C++ で書かれていることを忘れることができます。