audio - 音声認識なしで複数の声を検出

Question

複数の人が話しているかどうかをリアルタイムで検出する方法はありますか? そのために音声認識 API が必要ですか?

音声を分離したくありませんし、文字起こしもしたくありません。私のアプローチは、1 つのマイク (-> モノラル) を使用して頻繁に録音し、それらの録音を分析することです。しかし、どうすれば声を検出して区別できるでしょうか? 該当する周波数だけを見て絞り込むのですが…。

これが些細な仕事ではないことは理解しています。だからこそ、箱から出してすぐにこれを実行できる API、できればモバイル/Web フレンドリーな API があることを願っています。

これはクリスマスの買い物リストのように聞こえるかもしれませんが、前述のように、内容について何も知る必要はありません。したがって、本格的な音声認識はパフォーマンスに大きな影響を与えると思います。

score 1 · Accepted Answer

同様の問題 (大人/子供の分類器、音声/音楽の分類器、単一の声/音声混合の分類器) のほとんどは、標準的な機械学習の問題です。GMM などの分類器で解決できます。タスクのトレーニングデータを作成するだけでよいため、次のようになります。

ここでいくつかのコードサンプルを見つけることができます。

たとえば、試すことができます

1 に答える 1