私はオーディオ処理に非常に慣れていません。ですので、無知なことをお許しください。
ウィキペディアによると、通常、x 軸は時間を表し、y 軸は周波数を表すか、その逆です。色の濃さは、特定の時間と周波数における振幅 (エネルギー) を表します。これは簡単に理解できます。
specgram
pylab API から生成されたスペクトログラムを解釈できません。
上の図は、それぞれ異なるウィンドウ サイズ (128、512、1024) のスペクグラムをプロットしています。x軸が周波数であることは明らかです。Y 軸の 0 から 1.0 までの値は何を表していますか?
誰かがこれに光を当てることができれば、本当に感謝しています。