kinect - 音声がない場合の音声認識 API の一致文法 (Microsoft)

Question

Microsoft SAPI と Kinect を使用して音声認識ツールを作成しました。

次のコードサンプルでは、XML 文法を読み込み、SpeechRecognitionEngine を開始します。

音声がほとんどまたはまったくない場合、SpeechRecognitionEngine は単純な文で非常に高い信頼度 (0.85) で一致することがあります: 「サラ何時ですか」

エンジンがこの強力なマッチを無音でトリガーするのはなぜですか?!
回避策はありますか?

これがGitHubの私のメインクラスです

また、ダンプ(wav + xml)を使用してブログ投稿を(フランス語で) 書いています。

score 0 · Accepted Answer

どの wave ファイルについて話しているのか正確にはわかりません (私は中学生以来フランス語を話しませんでした)。しかし、あなたのグループからのこの波は資格があると思います: dump_2012_12.16_12.47.33.wav. 信頼度は .857 と高く、音声ファイルには音声が含まれていないようです。スペクトログラム (以下を参照) を見ると、音声ファイルが音声範囲にエネルギーを含んでいることがわかります。ここに画像の説明を入力

最近のほとんどの音声認識エンジンは、隠れマルコフモデル (別名 HMM) を使用して音声ベクトルパターンを音声に一致させます。今日の最新技術は、これを行う上で常に正確であるとは限りません。HMM はバックグラウンドノイズに非常に敏感な傾向があります。

これが、現在 (Siri のように) 生産されている音声タイプの機能のほとんどがプッシュトゥトークである理由です。ボタンを押す必要があり、5 秒以内にマイクに向かって話します。彼らはこれを行うので、ある種の音声信号があることを確認できます. オープンマイクのシステム (私が知っているのは Kinect だけです) では、バックグラウンドオーディオを抑制するために、エコーキャンセレーションの形式を使用しようとします。しかし、最先端の技術を使用しても、まだにじみがあります。

私が知っている唯一の比較的簡単な回避策 (これも 100% ではありません) は、文法を編集してガベージルールを含め、可能なフレーズリストを短くすることです。ガベージルールは、音声エンジンが何をすべきかわからない場合に、「ママに帰る」オプションを提供します。

http://www.w3.org/TR/speech-grammar/#S2.2.3

これは推奨される使用法ではないと思いますが、ガベージルールを使用してバックグラウンドノイズを除去することで、一部のシステムの動作が改善されるのを見てきました。もちろん、ガベージ reco イベントを無視する必要があります。

kinect - 音声がない場合の音声認識 API の一致文法 (Microsoft)

1 に答える 1

Related

Reference