ICU4Cを使用してCJKを音訳しています。ICUで単語セグメンテーションを使用して、中国語のテキストを単語セグメンテーション標準に従って定義された一連の単語に分割できるかどうか疑問に思っています。
たとえば、音訳を試してみると、次のようになります。
直接输出html代码而不是作为函数返回值代后处理
を使用して
Transliterator* myTrans =
Transliterator::createInstance("zh-Latin",UTRANS_FORWARD, err);
UnicodeString str;
str.setTo("直接输出html代码而不是作为函数返回值代后处理");
myTrans->transliterate(str);
str.toUTF8String(st);
std::cout << st << std::endl;
次の出力が得られます。
zhí jiē shū chū html dài mǎ ér bù shì zuò wèi hán shù fǎn huí zhí dài hòu chù lǐ
オンラインの拼音ツールをチェックするのはまったく問題ないようですが、私の問題はICUが文字を1つずつ音訳することです。しかし、私が探しているのは、以下のテキストのようなものです(中国語はわからないので、おそらく以下のテキストは何の意味もありませんが、私が興味を持っている出力の種類を示しているはずです) :
zhíjiē shūchū html dàimǎér bùshì zuò wèihán shùfǎn huízhídài hòu chùlǐ
ICU 50は単語のセグメンテーションが可能であると言われましたが、彼らのWebページにもWebにもドキュメントが見つかりませんでした。ICUで単語のセグメンテーションを使用したことがあるか、その方法を知っているか、またはその方法に関する適切なリンクがあるかどうかを知りたいと思いました。