c++ - 最速の音声認識ライブラリ C++

Question

一般的な質問のトピックであることは知っていますが、C++ で最速の音声認識ライブラリは何か知りたいですか?

現在、kniect で Microsoft SAPI を使用しています。それは正常に動作し、単語を認識しますが、少し遅く、単語を認識するのに1.2秒かかる場合があり、私の場合、この遅延がユーザーに多くの相互作用の問題を引き起こしています.

kinect で提供されているサンプルを確認しました。認識された単語に従ってカメが左右に移動しますが、それでも少し遅いです。

それで、音声認識を使用するロボットのような場合に使用できる、sapiよりも高速なライブラリがあるかどうか疑問に思っていましたが、ロボットは左に移動し続け、1,2秒後に右に曲がります。ユーザーにとってはイライラします。

score 9 · Accepted Answer

問題は高速ではなく、API の適切な使用方法です。音声認識は時間のかかるプロセスであるため、主なトリックは、録音と同時にオーディオの認識を開始することです。その後、フレーズの終わりが話された瞬間まで、ほとんどすべての結果が得られ、すぐに反応できます。

この方法で 0.2 秒の応答時間を達成できますが、これを実装するには、より柔軟な API が必要です。実装に使用できるオープンソースの音声認識フレームワークであるCMUSphinxを選択することをお勧めします。

1 に答える 1