アプリでの音声認識にオープン イヤーを使用しています。最大の関心事は精度です。静かな環境では約 50% の精度がありますが、騒がしい環境では状況が悪化します。ほとんど何も正しく認識されません。現在、300語程度の辞書ファイルを使用しています。精度を向上させるために探すべき領域は何ですか? これまでのところ、私はこれについて微調整を行っていません。
1 に答える
音声認識アプリケーションの設計では、音響モデル、文法、音声辞書など、音声認識の背後にあるいくつかの基本概念を理解する必要があります。CMUSphinx チュートリアルから詳細を学ぶことができますhttp://cmusphinx.sourceforge.net/wiki/tutorial
精度が悪いのは、音声アプリケーション開発の通常の状態であり、それを改善してアプリケーションを便利にするために使用できるプロセスがあります。プロセスは次のとおりです。
認識しようとしている音声サンプルを収集し、音声データベースを作成して、現在の精度を測定し、その背後にある問題を理解します
異なる音声プロンプト間の分離を改善するために、語彙のサイズを調整してみてください。たとえば、10 個のコマンドの語彙は、300 個のコマンドの語彙よりもはるかに認識しやすいです。
認識する亜種の数が少なくなり、人々の答えが簡単になるようにアプリケーションを設計してください。この活動はVUI(ボイス・ユーザー・インターフェース・デザイン)と呼ばれ、素晴らしい本やブログ記事がたくさんあるかなり大きな領域です。ここでいくつかの詳細を見つけることができます: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
アプリケーションの音響部分を改善してみてください。あなたのスピーチに合わせて辞書を修正してください。音響特性に合わせて音響モデルを適応させます。音響モデル適応プロセスの説明については、http://cmusphinx.sourceforge.net/wiki/tutorialadaptを参照してください。