私はスピーチでプログラムの感情認識を行っています。
mfcc + K-mean + GMM を使用すると、-15012、-43400、-8000 のような尤度が得られました
それは私よりもはるかに大きな価値でした。適正値ですか?
Wave ファイルの長さは通常 2 ~ 3 で、以下のオプションを使用して初期化します。
MFCC option
SampleRate = 16000
WindowSize = 256
NumberCoefficients = 13
UseFirstCoefficient = true
MinFreq = 20.0
MaxFreq = 16000.0
NumberFilters = 25
K-Means Clustering default option
NumberCluster = 2