テスト段階で MFCC がスピーカーから抽出する機能は何ですか?
mfccステップを計算する方法は次のとおりです。
信号を 10 ~ 30ms の小さなフレームに分割します
ウィンドウ関数を適用します (ハミング [原文ママ] はサウンド アプリケーションに推奨されます)
信号のフーリエ変換を計算します。
DFT を使用して、メル周波数ケプストラム係数を計算するには、次のようにします。
パワー スペクトルを取得: |DFT|^2
三角バンク フィルターを計算して hz スケールをメル スケールに変換します。
ログスペクトルを取得
離散 cos 変換を適用する
これらを行うことで、係数が得られます。しかし、これらの係数がユーザーの声とどのように関連しているかを知りたいです。これらの係数は何を表していますか?