話者の発音を修正するために、客観的な C/C++ で iOS 用の音声認識アプリケーションを構築しています。私は使用しており、使用Mel-Frequency-Cepstrum Coefficients
して 2 つの Sound-Wave を一致させDTW.
ています 間違っている場合は修正してください。ここで、文 (2 つのサウンド ファイル) のどの単語が一致しないかを知りたいと思います。例: 私の 2 つのサウンド ファイルは話します
1. I live in New York.
2. I laav in New York.
私のアルゴリズムは、何らかの指示によって2番目の単語をどのように指す必要があります。
Match-Box オープン ライブラリを参照用に使用しました。ここにそのリンクがあります。新しいアルゴリズムや新しいライブラリは大歓迎です。
PS. I don't want to use text to speech synthesis and speaker recognition.
間違った場所に質問を投稿した場合は、適切なリソースに誘導してください。
ちょっとしたヒントも大歓迎です。