古い携帯電話で、人に電話をかけるための音声ショートカットを作成できたことを覚えていますか。
その機能を使ってAndroidでアプリを作ろうとしています。ユーザーは、アプリケーションを制御したい単語または音を録音します。音声認識機能は、聞こえる音が以前に録音された音と等しいかどうかのみをチェックします。
誰かがこれを作成する方法を知っているか、ガイドを知っていますか? 満足のいく解決策が見つからないまま、何ヶ月も探し続けてきました。
ありがとう
古い携帯電話で、人に電話をかけるための音声ショートカットを作成できたことを覚えていますか。
その機能を使ってAndroidでアプリを作ろうとしています。ユーザーは、アプリケーションを制御したい単語または音を録音します。音声認識機能は、聞こえる音が以前に録音された音と等しいかどうかのみをチェックします。
誰かがこれを作成する方法を知っているか、ガイドを知っていますか? 満足のいく解決策が見つからないまま、何ヶ月も探し続けてきました。
ありがとう
参照音と録音音の両方を特徴量に変換する必要があります。そのためには、フレームでサウンドを分割し、FFT または直接メルケプストラムを抽出する必要があります。そのためには、そこにある任意の MFCC ライブラリを使用できます。
機能を取得したら、それらを DTW アルゴリズムと比較できます。ここでいくつかの詳細を見つけることができます
http://en.wikipedia.org/wiki/Dynamic_time_warping
DTW は、適切な電話相手を選択するために使用できるしきい値を返します。
同様の質問は