次のように、100,000以上の単語を音素( CMUdict )にマッピングしています。
ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ]
元の単語の文字を音素の数に等しい数のグループに分割したい、例
ABANDONED => [ 'A', 'B', 'A', 'N', 'D', 'O', 'N', 'ED' ]
音素から書記素へのマッピングはありませんが、音素から書記素への統計モデルを計算し、それを使用して各単語をどこで分割するかを決定できるはずです。(このモデルを使用して、新しい単語を可能性のある音素に変換することもできればよいのですが)
これどうやってするの?隠れマルコフモデルが適用できるように聞こえると思っていましたが、それ以上のことはわかりません。