私は先週丸々 MFCC と関連する問題を検索しました。これで、2 次元ベクトル coff[56][12] の .wav ファイルから MFCC 機能を取得できるようになりました。12 は抽出したい係数の数で、56 はフレーム数です。私が読んだいくつかのドキュメントによると、12 を超える係数を使用して音声を認識できます (特に、単語「1」、「2」... から「10」までを認識したい)。しかし、今では 12 係数のうち 56 を取得しています。
私が何か間違っている場合は、私を助けてください!!!