0

javaでパッケージpinyin4jを使用して、単一の漢字をローマ字(ピンイン)に変換しています。ただし、これにより、1 つの文字に対して複数のピンインが生成されることがよくあります (同じ文字でも発音が異なります)。たとえば、文字 C1 は 2 つのピンイン形式 p1 および p2 に変換され、文字 C2 は 3 つのピンイン形式 q1、q2、q3 に変換されます。

C1C2 を単語に組み合わせると、2*3=6 の組み合わせになります。通常、これらのうちの 1 つだけが実際の単語です。これらの組み合わせを、私が作成したレキシコン テキスト ファイルに対してチェックしたいと思います。多くの行は、レキシコン エントリである \w で始まります (たとえば、6 つの組み合わせのうち p1q2 だけがレキシコンで見つかります)。レキシコンファイルをハッシュセットに読み込むことを考えています。ただし、このプロセス全体を最適に実装する方法についてはわかりません。助言がありますか?

4

1 に答える 1