騒がしい環境でのポケットフィンクスの認識精度を上げようとしています。ただし、ユーザーはさまざまな環境でアプリを使用する場合があります。したがって、ノイズを伴うトレーニングは私がやりたいことではありません。
私の質問は、ポケットフィンクスに音声信号を供給する前のノイズリダクションは、必然的に認識精度を低下させるのでしょうか?
はいの場合、ノイズ除去後に音声のどの機能を保持する必要がありますか? 現在、ノイズ リダクションを使用すると、WER が ~40% (自由形式の言語) から ~60% に上昇することがわかります。
追加するだけで、ノイズリダクションの後、スピーチは知覚的に良く聞こえます.
Pocketsphinx argfile:
-lm lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic
-hmm voxforge_en_sphinx.cd_cont_5000
ここでの考え方は、ノイズ リダクションを有効にした場合の音声認識の精度の向上を実証することであり、直感的には、ノイズ リダクション アルゴリズムが信号のスペクトル コンテンツを完全に台無しにしない限り、これは理想的に起こるはずです。
どんな助けでも大歓迎です。