組み込み機器向けの音声依存型音声認識ソリューションのソリューションを検討しています。私はpocketsphinxを見てきましたが、まだ慣れていないので、もっと経験豊富な人が知っているかもしれないと思いました。そのような音声認識を実装するためにpocketsphinxを使用することは可能ですか?音響モデルと言語モデルを使用するのではなく、音声を録音し、その特徴を抽出して、話されているものと一致させる必要があります。Pocketsphinxを使用してこのフローを実装することは可能ですか?そうでない場合、誰かが私にそのような解決策の正しい方向を示すことができますか?ありがとうございました。
質問する
285 次
1 に答える
1
そのような音声認識を実装するためにpocketsphinxを使用することは可能ですか?
PocketsphinxAPIにはそのような機能はありません
できることは、最初にsphinxbaseを使用してMFC係数を抽出することです。たとえば、sphinx_feソースを参照してください。
次に、DTWアルゴリズムを適用して記録を比較できます。DTWの実装は非常に単純で、わずか50行のコードです。
http://en.wikipedia.org/wiki/Dynamic_time_warping
DTWを実装するライブラリもいくつかあります。リンクはウィキペディアのページにあります。
DTWの実装を示すpocketsphinxパッチを見るのは素晴らしいことです。
于 2012-12-05T07:51:48.740 に答える