3

話している 2 人をどのように区別できますか? 誰かが「こんにちは」と言い、次に別の人が「こんにちは」と言った場合、音声データでどのような署名を探す必要がありますか? 周期性?

これに答えることができる人に感謝します!

4

4 に答える 4

2

これは、音声および信号処理の専門家にとっても非常に難しい問題です。このページにはさらに多くの情報があります: http://en.wikipedia.org/wiki/Speaker_recognition

そして、いくつかの推奨されるテクノロジーの出発点は次のとおりです。

声紋の処理と保存に使用されるさまざまな技術には、周波数推定、隠れマルコフ モデル、ガウス混合モデル、パターン マッチング アルゴリズム、ニューラル ネットワーク、行列表現、ベクトル量子化、決定木などがあります。一部のシステムでは、コホート モデルやワールド モデルなどの「アンチ スピーカー」手法も使用されます。

于 2011-01-29T15:08:46.907 に答える
0

もう 1 つの方法は、マイクのアレイを使用して、音源の位置と方向を区別することです。位置計算は、モノまたはステレオ ソースから異なるスピーカーを分離するよりもはるかに複雑ではないため、これはより簡単なアプローチであると考えています。

于 2011-01-30T10:05:49.497 に答える
0

同じ単語やフレーズを発している場合、区別するのは 2 人だけなので、これははるかに簡単です。シンプルなものから始めて、必要に応じて複雑なものを追加することをお勧めします。

まず、デジタル波形のサンプル カウントを時間と大きさでビニングするか、(ソフトウェア機能が便利な場合は) 発話全体の FFT を試してみます。線形判別 (または既に利用可能なもの) などの基本的なモデリング プロセスも最初に検討します。

于 2011-01-29T16:53:49.980 に答える