「トリガーワード」を使用してオーディオの録音を開始する機能があれば、大幅に改善される音声アプリケーションがあります。完全な音声テキスト エンジンは必要ありません。トリガー ワードを確実かつ効率的に検出する機能だけが必要です。
この特定のユースケースをサポートする特殊な音声エンジン、またはそのような単一目的の検出エンジンを開発するためのライブラリ/方法があるかどうか疑問に思っています。理想的には、騒がしい環境で動作することを望みますが、1 人のユーザーの声に対してトレーニングすることもできます。
研究論文/トピックへのポインタも高く評価されるので、私は何を求めるべきかを知っています.