話している 2 人をどのように区別できますか? 誰かが「こんにちは」と言い、次に別の人が「こんにちは」と言った場合、音声データでどのような署名を探す必要がありますか? 周期性?
これに答えることができる人に感謝します!
話している 2 人をどのように区別できますか? 誰かが「こんにちは」と言い、次に別の人が「こんにちは」と言った場合、音声データでどのような署名を探す必要がありますか? 周期性?
これに答えることができる人に感謝します!
これは、音声および信号処理の専門家にとっても非常に難しい問題です。このページにはさらに多くの情報があります: http://en.wikipedia.org/wiki/Speaker_recognition
そして、いくつかの推奨されるテクノロジーの出発点は次のとおりです。
声紋の処理と保存に使用されるさまざまな技術には、周波数推定、隠れマルコフ モデル、ガウス混合モデル、パターン マッチング アルゴリズム、ニューラル ネットワーク、行列表現、ベクトル量子化、決定木などがあります。一部のシステムでは、コホート モデルやワールド モデルなどの「アンチ スピーカー」手法も使用されます。
もう 1 つの方法は、マイクのアレイを使用して、音源の位置と方向を区別することです。位置計算は、モノまたはステレオ ソースから異なるスピーカーを分離するよりもはるかに複雑ではないため、これはより簡単なアプローチであると考えています。
同じ単語やフレーズを発している場合、区別するのは 2 人だけなので、これははるかに簡単です。シンプルなものから始めて、必要に応じて複雑なものを追加することをお勧めします。
まず、デジタル波形のサンプル カウントを時間と大きさでビニングするか、(ソフトウェア機能が便利な場合は) 発話全体の FFT を試してみます。線形判別 (または既に利用可能なもの) などの基本的なモデリング プロセスも最初に検討します。