0

テスト段階で MFCC がスピーカーから抽出する機能は何ですか?

mfccステップを計算する方法は次のとおりです。

  • 信号を 10 ~ 30ms の小さなフレームに分割します

  • ウィンドウ関数を適用します (ハミング [原文ママ] はサウンド アプリケーションに推奨されます)

  • 信号のフーリエ変換を計算します。

  • DFT を使用して、メル周波数ケプストラム係数を計算するには、次のようにします。

    • パワー スペクトルを取得: |DFT|^2

    • 三角バンク フィルターを計算して hz スケールをメル スケールに変換します。

    • ログスペクトルを取得

    • 離散 cos 変換を適用する

これらを行うことで、係数が得られます。しかし、これらの係数がユーザーの声とどのように関連しているかを知りたいです。これらの係数は何を表していますか?

4

1 に答える 1

1

MFCC は、オーディオ ソースの周波数ごとの電力の時系列を提供します。「生の」DFT ベースのベキ級数からの調整は、次の 2 つの基本的な目的に役立ちます。

1)生のDFTから取得した(周波数と電力の)線形スケールから対数スケールに変更します。これは、人間 (およびほとんどの動物) の聴覚系が音を知覚する方法と一致しています。

2) 大量のデータをより小さな機能セットに圧縮することで、サウンド間の重要な知覚上の違いを区別するのに十分です。この圧縮は、高周波数で特に役立ちます。ほとんどの音声/ASR アプリケーションでは、1001 Hz と 999 Hz のパワー レベルの差を検出してもほとんど意味がありません。

これらの係数は何を表していますか?

生の DFT と同じですが、人間の知覚の既知の特性に一致するように調整されています。これらの調整は、私たちの声と聴覚が共進化した音声コミュニケーションを分析する際に理論的に意味があります。

于 2015-03-10T11:27:08.890 に答える