audio - 話者認識

Question

話している 2 人をどのように区別できますか? 誰かが「こんにちは」と言い、次に別の人が「こんにちは」と言った場合、音声データでどのような署名を探す必要がありますか? 周期性？

これに答えることができる人に感謝します！

score 2 · Accepted Answer

これは、音声および信号処理の専門家にとっても非常に難しい問題です。このページにはさらに多くの情報があります: http://en.wikipedia.org/wiki/Speaker_recognition

そして、いくつかの推奨されるテクノロジーの出発点は次のとおりです。

声紋の処理と保存に使用されるさまざまな技術には、周波数推定、隠れマルコフモデル、ガウス混合モデル、パターンマッチングアルゴリズム、ニューラルネットワーク、行列表現、ベクトル量子化、決定木などがあります。一部のシステムでは、コホートモデルやワールドモデルなどの「アンチスピーカー」手法も使用されます。

score 0 · Accepted Answer

もう 1 つの方法は、マイクのアレイを使用して、音源の位置と方向を区別することです。位置計算は、モノまたはステレオソースから異なるスピーカーを分離するよりもはるかに複雑ではないため、これはより簡単なアプローチであると考えています。

score 0 · Accepted Answer

同じ単語やフレーズを発している場合、区別するのは 2 人だけなので、これははるかに簡単です。シンプルなものから始めて、必要に応じて複雑なものを追加することをお勧めします。

まず、デジタル波形のサンプルカウントを時間と大きさでビニングするか、(ソフトウェア機能が便利な場合は) 発話全体の FFT を試してみます。線形判別 (または既に利用可能なもの) などの基本的なモデリングプロセスも最初に検討します。

4 に答える 4