概念的な問題があります。
私はメルスケールとは何か、それが何を表しているのかを知っています。
スペクトログラムの情報量を減らしたい場合は、MFCC を使用すると思います。
しかし、MFCC とは何か、またそれが何を表しているのか、よくわかりません。音声認識プロセスで MFCC マトリックスを使用していますが、そのベクトル内のすべての数値が何を表しているのかわかりません。
配列は 13x130 で、これらすべてのフロートが何を意味するのかわかりません。オーディオトラックが長いほど、マトリックスが大きくなることがわかりました(例:13x250、13x400)。
私は自分自身を明確にすることを願っています。