1

複数の人が話しているかどうかをリアルタイムで検出する方法はありますか? そのために音声認識 API が必要ですか?

音声を分離したくありませんし、文字起こしもしたくありません。私のアプローチは、1 つのマイク (-> モノラル) を使用して頻繁に録音し、それらの録音を分析することです。しかし、どうすれば声を検出して区別できるでしょうか? 該当する周波数だけを見て絞り込むのですが…。

これが些細な仕事ではないことは理解しています。だからこそ、箱から出してすぐにこれを実行できる API、できればモバイル/Web フレンドリーな API があることを願っています。

これはクリスマスの買い物リストのように聞こえるかもしれませんが、前述のように、内容について何も知る必要はありません。したがって、本格的な音声認識はパフォーマンスに大きな影響を与えると思います。

4

1 に答える 1

1

同様の問題 (大人/子供の分類器、音声/音楽の分類器、単一の声/音声混合の分類器) のほとんどは、標準的な機械学習の問題です。GMM などの分類器で解決できます。タスクのトレーニング データを作成するだけでよいため、次のようになります。

  1. オーディオブックをダウンロードできます。
  2. クリーンな録音を混合して混合データを準備する
  3. 両方で GMM 分類器をトレーニングする
  4. クリーン音声 GMM と混合音声 GMM の確率を比較し、2 つの分類器の確率の比によって混合の有無を判断します。

ここでいくつかのコード サンプルを見つけることができます。

https://github.com/littleowen/コンセプト

たとえば、試すことができます

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

于 2016-07-11T22:49:54.080 に答える