2

Microsoft SAPI と Kinect を使用して音声認識ツールを作成しました。

次のコード サンプルでは、​​XML 文法を読み込み、SpeechRecognitionEngine を開始します。

音声がほとんどまたはまったくない場合、SpeechRecognitionEngine は単純な文で非常に高い信頼度 (0.85) で一致することがあります: 「サラ何時ですか」

  • エンジンがこの強力なマッチを無音でトリガーするのはなぜですか?!
  • 回避策はありますか?

これがGitHubの私のメインクラスです

また、ダンプ(wav + xml)を使用してブログ投稿を(フランス語で) 書いています。

4

1 に答える 1

0

どの wave ファイルについて話しているのか正確にはわかりません (私は中学生以来フランス語を話しませんでした)。しかし、あなたのグループからのこの波は資格があると思います: dump_2012_12.16_12.47.33.wav. 信頼度は .857 と高く、音声ファイルには音声が含まれていないようです。スペクトログラム (以下を参照) を見ると、音声ファイルが音声範囲にエネルギーを含んでいることがわかります。 ここに画像の説明を入力

最近のほとんどの音声認識エンジンは、隠れマルコフ モデル (別名 HMM) を使用して音声ベクトル パターンを音声に一致させます。今日の最新技術は、これを行う上で常に正確であるとは限りません。HMM はバックグラウンド ノイズに非常に敏感な傾向があります。

これが、現在 (Siri のように) 生産されている音声タイプの機能のほとんどがプッシュ トゥ トークである理由です。ボタンを押す必要があり、5 秒以内にマイクに向かって話します。彼らはこれを行うので、ある種の音声信号があることを確認できます. オープン マイクのシステム (私が知っているのは Kinect だけです) では、バックグラウンド オーディオを抑制するために、エコー キャンセレーションの形式を使用しようとします。しかし、最先端の技術を使用しても、まだにじみがあります。

私が知っている唯一の比較的簡単な回避策 (これも 100% ではありません) は、文法を編集してガベージ ルールを含め、可能なフレーズ リストを短くすることです。ガベージ ルールは、音声エンジンが何をすべきかわからない場合に、「ママに帰る」オプションを提供します。

http://www.w3.org/TR/speech-grammar/#S2.2.3

これは推奨される使用法ではないと思いますが、ガベージ ルールを使用してバックグラウンド ノイズを除去することで、一部のシステムの動作が改善されるのを見てきました。もちろん、ガベージ reco イベントを無視する必要があります。

于 2013-05-05T04:48:39.940 に答える