現在、パワースペクトルがカルディフレームワークにどのように保存されているかを理解するのに苦労しています。
を使用していくつかのデータファイルを正常に作成したようです
$cmd JOB=1:$nj $logdir/spect_${name}.JOB.log \
compute-spectrogram-feats --verbose=2 \
scp,p:$logdir/wav_spect_${name}.JOB.scp ark:- \| \
copy-feats --compress=$compress $write_num_frames_opt ark:- \
ark,scp:$specto_dir/raw_spectogram_$name.JOB.ark,$specto_dir/raw_spectogram_$name.JOB.scp
これにより、次のように、さまざまなオーディオ ファイルのデータ ポイントを含む大きなファイルが得られます。
問題は、このデータ セットをどのように解釈すればよいかわからないことです。この前に fft が実行されることはわかっています。これは良いことだと思います。
上記の出力例は、長さが 1 秒のファイルからのものです。
スペクトグラムの計算にはすべての標準が使用されているため、サンプル周波数は 16 kHz、フレーム長 = 25 ミリ秒、オーバーラップ = 10 ミリ秒にする必要があります。最初のセットのデータ ポイントの数は 25186 です。
これらの情報が与えられた場合、何らかの方法で出力を解釈できますか?
通常、fft を実行するとき、周波数ビンのサイズは、 がサンプル周波数で、が FFT 長F_s/N=bin_size
である場所によって抽出できます。では、これは同じケースですか?16000/25186 = 0.6... Hz/ビン?F_s
N
それとも私はそれを間違って解釈していますか?