1

音声起動コマンドが必要な Web アプリを構築しています。オーディオ入力に getUserMedia を使用しています。

音声起動コマンドの場合、ユーザーは音声を録音してコマンドを「調整」する必要があります。たとえば、「停止」コマンドの場合、ユーザーが「停止」という単語を言うと、アプリはオーディオ スニペットを保存します。次に、ユーザーが「停止」コマンドを発行するために、ユーザーは「停止」という単語を言います。

問題は、ユーザーが以前に「調整」/記録した事前に記録された音声コマンドから発行したコマンド (音声入力) を比較/認識する方法があるかどうかです。つまり、別のオーディオ (ファイル) からのオーディオ ストリームを比較します。私はこれについて長い間研究してきたので、誰かが私を正しい方向に向けることができることを願っています。

前もって感謝します。

注: SoundHound のように音楽を比較/認識しているわけではありません。また、音声認識は必要ないと思います。音声認識は複雑すぎて、必要なメカニズムには不要です。どうやら、音声認識なしでこれを行うのは、不可能ではないにしても難しいようです。私が試すことができる音声認識ライブラリ/API (うまくいけばjavascript)を誰かが推薦できますか?

4

1 に答える 1