複数の人が話しているかどうかをリアルタイムで検出する方法はありますか? そのために音声認識 API が必要ですか?
音声を分離したくありませんし、文字起こしもしたくありません。私のアプローチは、1 つのマイク (-> モノラル) を使用して頻繁に録音し、それらの録音を分析することです。しかし、どうすれば声を検出して区別できるでしょうか? 該当する周波数だけを見て絞り込むのですが…。
これが些細な仕事ではないことは理解しています。だからこそ、箱から出してすぐにこれを実行できる API、できればモバイル/Web フレンドリーな API があることを願っています。
これはクリスマスの買い物リストのように聞こえるかもしれませんが、前述のように、内容について何も知る必要はありません。したがって、本格的な音声認識はパフォーマンスに大きな影響を与えると思います。