speech-recognition - 「ボイストリガー」検出

Question

「トリガーワード」を使用してオーディオの録音を開始する機能があれば、大幅に改善される音声アプリケーションがあります。完全な音声テキストエンジンは必要ありません。トリガーワードを確実かつ効率的に検出する機能だけが必要です。

この特定のユースケースをサポートする特殊な音声エンジン、またはそのような単一目的の検出エンジンを開発するためのライブラリ/方法があるかどうか疑問に思っています。理想的には、騒がしい環境で動作することを望みますが、1 人のユーザーの声に対してトレーニングすることもできます。

研究論文/トピックへのポインタも高く評価されるので、私は何を求めるべきかを知っています.

score 2 · Accepted Answer

Red5 プロジェクトの私の同僚は、トリガーワードを使用してイメージリポジトリに対して検索を実行させる同様のデモを作成しました。「猫」と言うと、約 1 秒以内に猫の画像が表示されました。クライアントアプリケーションは Flash で作成され、バックエンドは無料の Sphinx ライブラリを使用して Red5 で実行されました。多くの努力をしなくても、Sphinx でやりたいことを確実に実行できます。
Sphinx プロジェクト: http://cmusphinx.sourceforge.net/sphinx4/

score 1 · Accepted Answer

わかりました、私は完全にオフにすることができますが、フル機能の音声認識ライブラリを使用することは、ユースケースにとってやり過ぎかもしれません..

よりシンプルでありながらオーディオ主導の何かで生活できる場合は、次のことを検討してください。

手拍子の検出は非常に簡単です。手拍子は、オーディオ帯域全体で高いエネルギーを持ちます。それを検出することは単純であり、完全な音声認識よりもはるかに安価な計算です。

簡単に言えば、オーディオを録音し、データに対して (短時間) FFT を実行し、使用可能な周波数ビンの 80% でエネルギーが高いケースを検出します。シンプルな録音室/マイクの設定により、80% で位相の問題が解決されます。次に、しきい値を好みに合わせて調整すれば完了です。

音声認識で同じことを行うことも可能ですが、大量の CPU サイクルを消費します。

score 0 · Accepted Answer

私は音声録音win32アプリを持っています。OCX を使用して録音/再生を管理しています。

あなたが求めている解決策ではないことは承知していますが、フットペダルを検討することをお勧めします。プログラムするのは簡単で、録音を開始/停止するための話し言葉のように機能します。これらをチェックしてください：www.pedalpower.com

それが役に立てば幸い、

レイナルド。

score 0 · Accepted Answer

Linux での音声認識の可能性について、数日前に質問がありました。あなたが求めているのはそのサブセットです。それらの回答の一部には有用な情報が含まれている可能性があると思います。joeforker's answer にリンクされている記事は非常に興味深いものでした。

score 0 · Accepted Answer

何のOS？たとえば、Windows Vista の音声機能が役立つかどうか疑問に思います。単一の単語を認識することは、音声分析器にとって最も単純な問題のように思えます。

speech-recognition - 「ボイストリガー」検出

5 に答える 5

Related

Reference