まず第一に、私の質問は音声認識の「古典的な」定義について言うことではないことを述べたいと思います。
私たちがやろうとしていることは、次の意味で多少異なります。
- ユーザーがコマンドを記録する
- 後で、ユーザーが事前に録音されたコマンドを話すと、特定のアクションが発生します。
たとえば、お母さんに電話をかけるための音声コマンドを録音しているので、お母さんをクリックして「お母さん」と言います。次に、プログラムを使用して「ママ」と言うと、自動的に彼女に電話がかかります。
音声コマンドと保存された音声サンプルの比較をどのように実行しますか?
編集:音声信号の比較だけで、「テキスト読み上げ」機能は必要ありません。明らかに、私たちはある種の既製の製品またはフレームワークを探しています。