5

音声認識に関するこのガイドを読んでいたところ、音声認識には音響モデル、言語モデル、音声辞書の3つの項目が必要であると書かれていました。

このPythonデモで遊び始めたいと思いました。このデモでは、Gstreamerを使用してマイクからキャプチャし、8kHzの16ビットPCMオーディオにリサンプリングします。

言語モデルと音声辞書を指定できることがわかり、[cmuが提供する]ものを使用します。

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/

しかし、音響モデルをどこで指定すべきか混乱していますか?gstreamerには、暗黙的に使用している独自の音響モデルがありますか?少し良い結果を得るために、ここで提供されている音響モデルを使用したいと思っていました。

 http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/

(ハイパーリンクについては申し訳ありません。担当者が10人未満のリンクを2つ以上投稿することはできません)

4

1 に答える 1

3

しかし、音響モデルをどこで指定すべきか混乱していますか?

gstreamer要素のhmmプロパティを使用してモデルを指定できます。チュートリアルで説明されているように

asr.set_property('lm', '/home/user/mylanguagemodel.lm')

使用できます

asr.set_property('hmm', '/home/user/acoustic_model_folder')

gstreamerには、暗黙的に使用している独自の音響モデルがありますか?

はい、デフォルトでは、ディストリビューションの米国英語モデルhub4wsj_sc_8kを使用します

于 2012-11-30T21:26:42.973 に答える