2

話者の発音を修正するために、客観的な C/C++ で iOS 用の音声認識アプリケーションを構築しています。私は使用しており、使用Mel-Frequency-Cepstrum Coefficientsして 2 つの Sound-Wave を一致させDTW. ています 間違っている場合は修正してください。ここで、文 (2 つのサウンド ファイル) のどの単語が一致しないかを知りたいと思います。例: 私の 2 つのサウンド ファイルは話します

 1. I live in New York.
 2. I laav in New York.

私のアルゴリズムは、何らかの指示によって2番目の単語をどのように指す必要があります。

Match-Box オープン ライブラリを参照用に使用しました。ここにそのリンクがあります。新しいアルゴリズムや新しいライブラリは大歓迎です。

PS. I don't want to use text to speech synthesis and speaker recognition.

間違った場所に質問を投稿した場合は、適切なリソースに誘導してください。

ちょっとしたヒントも大歓迎です。

4

0 に答える 0