どの wave ファイルについて話しているのか正確にはわかりません (私は中学生以来フランス語を話しませんでした)。しかし、あなたのグループからのこの波は資格があると思います: dump_2012_12.16_12.47.33.wav. 信頼度は .857 と高く、音声ファイルには音声が含まれていないようです。スペクトログラム (以下を参照) を見ると、音声ファイルが音声範囲にエネルギーを含んでいることがわかります。

最近のほとんどの音声認識エンジンは、隠れマルコフ モデル (別名 HMM) を使用して音声ベクトル パターンを音声に一致させます。今日の最新技術は、これを行う上で常に正確であるとは限りません。HMM はバックグラウンド ノイズに非常に敏感な傾向があります。
これが、現在 (Siri のように) 生産されている音声タイプの機能のほとんどがプッシュ トゥ トークである理由です。ボタンを押す必要があり、5 秒以内にマイクに向かって話します。彼らはこれを行うので、ある種の音声信号があることを確認できます. オープン マイクのシステム (私が知っているのは Kinect だけです) では、バックグラウンド オーディオを抑制するために、エコー キャンセレーションの形式を使用しようとします。しかし、最先端の技術を使用しても、まだにじみがあります。
私が知っている唯一の比較的簡単な回避策 (これも 100% ではありません) は、文法を編集してガベージ ルールを含め、可能なフレーズ リストを短くすることです。ガベージ ルールは、音声エンジンが何をすべきかわからない場合に、「ママに帰る」オプションを提供します。
http://www.w3.org/TR/speech-grammar/#S2.2.3
これは推奨される使用法ではないと思いますが、ガベージ ルールを使用してバックグラウンド ノイズを除去することで、一部のシステムの動作が改善されるのを見てきました。もちろん、ガベージ reco イベントを無視する必要があります。