matlab - MFCC を使用して ASR システムでユーザーを識別するために抽出される機能またはパラメーターは何ですか?

Question

テスト段階で MFCC がスピーカーから抽出する機能は何ですか?

mfccステップを計算する方法は次のとおりです。

信号を 10 ～ 30ms の小さなフレームに分割します
ウィンドウ関数を適用します (ハミング [原文ママ] はサウンドアプリケーションに推奨されます)
信号のフーリエ変換を計算します。
DFT を使用して、メル周波数ケプストラム係数を計算するには、次のようにします。
- パワースペクトルを取得: |DFT|^2
- 三角バンクフィルターを計算して hz スケールをメルスケールに変換します。
- ログスペクトルを取得
- 離散 cos 変換を適用する

これらを行うことで、係数が得られます。しかし、これらの係数がユーザーの声とどのように関連しているかを知りたいです。これらの係数は何を表していますか?

score 1 · Accepted Answer

MFCC は、オーディオソースの周波数ごとの電力の時系列を提供します。「生の」DFT ベースのベキ級数からの調整は、次の 2 つの基本的な目的に役立ちます。

1）生のDFTから取得した（周波数と電力の）線形スケールから対数スケールに変更します。これは、人間 (およびほとんどの動物) の聴覚系が音を知覚する方法と一致しています。

2) 大量のデータをより小さな機能セットに圧縮することで、サウンド間の重要な知覚上の違いを区別するのに十分です。この圧縮は、高周波数で特に役立ちます。ほとんどの音声/ASR アプリケーションでは、1001 Hz と 999 Hz のパワーレベルの差を検出してもほとんど意味がありません。

これらの係数は何を表していますか?

生の DFT と同じですが、人間の知覚の既知の特性に一致するように調整されています。これらの調整は、私たちの声と聴覚が共進化した音声コミュニケーションを分析する際に理論的に意味があります。

1 に答える 1