ios - 音声認識に開耳を使用している場合、精度が非常に低い

Question

アプリでの音声認識にオープンイヤーを使用しています。最大の関心事は精度です。静かな環境では約 50% の精度がありますが、騒がしい環境では状況が悪化します。ほとんど何も正しく認識されません。現在、300語程度の辞書ファイルを使用しています。精度を向上させるために探すべき領域は何ですか? これまでのところ、私はこれについて微調整を行っていません。

score 17 · Accepted Answer

音声認識アプリケーションの設計では、音響モデル、文法、音声辞書など、音声認識の背後にあるいくつかの基本概念を理解する必要があります。CMUSphinx チュートリアルから詳細を学ぶことができますhttp://cmusphinx.sourceforge.net/wiki/tutorial

精度が悪いのは、音声アプリケーション開発の通常の状態であり、それを改善してアプリケーションを便利にするために使用できるプロセスがあります。プロセスは次のとおりです。

認識しようとしている音声サンプルを収集し、音声データベースを作成して、現在の精度を測定し、その背後にある問題を理解します
異なる音声プロンプト間の分離を改善するために、語彙のサイズを調整してみてください。たとえば、10 個のコマンドの語彙は、300 個のコマンドの語彙よりもはるかに認識しやすいです。
認識する亜種の数が少なくなり、人々の答えが簡単になるようにアプリケーションを設計してください。この活動はVUI（ボイス・ユーザー・インターフェース・デザイン）と呼ばれ、素晴らしい本やブログ記事がたくさんあるかなり大きな領域です。ここでいくつかの詳細を見つけることができます: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
アプリケーションの音響部分を改善してみてください。あなたのスピーチに合わせて辞書を修正してください。音響特性に合わせて音響モデルを適応させます。音響モデル適応プロセスの説明については、http://cmusphinx.sourceforge.net/wiki/tutorialadaptを参照してください。

ios - 音声認識に開耳を使用している場合、精度が非常に低い

1 に答える 1

Related

Reference