音声認識に関するこのガイドを読んでいたところ、音声認識には音響モデル、言語モデル、音声辞書の3つの項目が必要であると書かれていました。
このPythonデモで遊び始めたいと思いました。このデモでは、Gstreamerを使用してマイクからキャプチャし、8kHzの16ビットPCMオーディオにリサンプリングします。
言語モデルと音声辞書を指定できることがわかり、[cmuが提供する]ものを使用します。
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
しかし、音響モデルをどこで指定すべきか混乱していますか?gstreamerには、暗黙的に使用している独自の音響モデルがありますか?少し良い結果を得るために、ここで提供されている音響モデルを使用したいと思っていました。
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(ハイパーリンクについては申し訳ありません。担当者が10人未満のリンクを2つ以上投稿することはできません)