3

騒がしい環境でのポケットフィンクスの認識精度を上げようとしています。ただし、ユーザーはさまざまな環境でアプリを使用する場合があります。したがって、ノイズを伴うトレーニングは私がやりたいことではありません。

私の質問は、ポケットフィンクスに音声信号を供給する前のノイズリダクションは、必然的に認識精度を低下させるのでしょうか?

はいの場合、ノイズ除去後に音声のどの機能を保持する必要がありますか? 現在、ノイズ リダクションを使用すると、WER が ~40% (自由形式の言語) から ~60% に上昇することがわかります。

追加するだけで、ノイズリダクションの後、スピーチは知覚的に良く聞こえます.

Pocketsphinx argfile:

-lm   lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic 
-hmm  voxforge_en_sphinx.cd_cont_5000

ここでの考え方は、ノイズ リダクションを有効にした場合の音声認識の精度の向上を実証することであり、直感的には、ノイズ リダクション アルゴリズムが信号のスペクトル コンテンツを完全に台無しにしない限り、これは理想的に起こるはずです。

どんな助けでも大歓迎です。

4

1 に答える 1

5

現在、ノイズ リダクションを使用すると、WER が ~40% (自由形式の言語) から ~60% に上昇することがわかります。

これらは非常に悪いレートです。理由は次のとおりです。

1) 古いモデルを使用している

2) ノイズリダクションなしで時代遅れのポケットフィンクスを使用しています。

通常、外部ノイズ リダクションは音声認識の精度を低下させますが、幸いなことに、最新の pocketphinx には独自のノイズ リダクション モジュールがあり、ノイズに対して非常に堅牢です。更新するだけです。最良の結果を得るには、次のことを行う必要があります。

1) http://github.com/cmusphinxから最新の sphinxbase と pocketphinx をダウンロードして使用します

2) 最新の音響および言語モデルをダウンロードします。

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Acoustic%20Model/en-us.tar.gz/download

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/cmusphinx-5.0-en-us.lm.dmp/download

これにより、適切なベースラインを設定できます。ノイズ リダクションのオンとオフを試すには、コマンド ライン構成オプションを使用できます。

-remove_noise yes/no

ノイズロバスト性を含む精度を下げる方法に関するさらなるアドバイスについては、認識したいオーディオのテストサンプルを提供することをお勧めします。詳細については、次を参照してください。

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

于 2014-09-03T11:34:09.583 に答える