一般的に言って、そうです-あなたの印象は正しいです。
最初に指摘するのは、Kinectは実際には単なるスピーチ用のマイクであるということです。音声処理には何もしません。そのため、ニーズに適したパッケージを見つけた場合、特定のライブラリに縛られることはありません。
Microsoft Speechを使用するときは、何を一致させたいかをもう少し明確にする必要があります。個々の単語(「メアリー」や「ラム」など)を探して、それがフレーズ(「メアリーは小さな子羊を持っていた」など)を拾うことを期待するのは難しいでしょう。MicrosoftSpeechで何が可能かを知るための2つのリンクを次に示します。
2番目のリンクは、探しているものを見つける可能性を高める方法で文法ルックアップを調整する方法を示す非常に優れたリンクです。たとえば、オプションの単語や代替フレーズを追加します。より複雑な文法の場合、SRGS形式のファイルは(私の意見では)実際にコードを処理する方法です。
しかし、すべての希望が失われるわけではありません。Microsoft Speechは、あなたを助けるかもしれないいくつかの宝石を提供しています...
信頼水準-語彙に対してもう少し寛大になるようにエンジンに指示できます。4〜5語のフレーズで2語を探しているだけの場合、これは非常にうまくいく可能性があります。アプリケーションによってさまざまなミレージがありますので、あなたのニーズに合うかどうかはわかりませんが...役立つかもしれません。
仮説を立てた音声-認識された音声イベントに加えて、MicrosoftSpeechには仮説を立てたイベントがあります。少し緩く、大きなフレーズの一部であるアイテムをキャッチできます。繰り返しになりますが、ミレージは常にさまざまであるため、これが解決策になるかどうかはわかりません
http://msdn.microsoft.com/en-us/library/system.speech.recognition.speechrecognizer.speechhypothesized.aspx
最後に、DragonNaturalSpeakingのようなパッケージを調べることができます。Dragonのような企業は、人々が新しいフレーズのセットを学習することなく、より自然に話すことができるパッケージの作成に多大な努力を払ってきました。