audio - オーディオファイルのスペクトログラム値について

Question

現在、パワースペクトルがカルディフレームワークにどのように保存されているかを理解するのに苦労しています。

を使用していくつかのデータファイルを正常に作成したようです

$cmd JOB=1:$nj $logdir/spect_${name}.JOB.log \
    compute-spectrogram-feats --verbose=2 \
     scp,p:$logdir/wav_spect_${name}.JOB.scp ark:- \| \
    copy-feats --compress=$compress $write_num_frames_opt ark:- \
      ark,scp:$specto_dir/raw_spectogram_$name.JOB.ark,$specto_dir/raw_spectogram_$name.JOB.scp

これにより、次のように、さまざまなオーディオファイルのデータポイントを含む大きなファイルが得られます。

問題は、このデータセットをどのように解釈すればよいかわからないことです。この前に fft が実行されることはわかっています。これは良いことだと思います。

上記の出力例は、長さが 1 秒のファイルからのものです。
スペクトグラムの計算にはすべての標準が使用されているため、サンプル周波数は 16 kHz、フレーム長 = 25 ミリ秒、オーバーラップ = 10 ミリ秒にする必要があります。最初のセットのデータポイントの数は 25186 です。

これらの情報が与えられた場合、何らかの方法で出力を解釈できますか?

通常、fft を実行するとき、周波数ビンのサイズは、がサンプル周波数で、が FFT 長F_s/N=bin_sizeである場所によって抽出できます。では、これは同じケースですか？16000/25186 = 0.6... Hz/ビン?F_sN

それとも私はそれを間違って解釈していますか？

audio - オーディオ ファイルのスペクトログラム値について

1 に答える 1

Related

Reference

audio - オーディオファイルのスペクトログラム値について