この概念を理解するために、少し仮説的な質問があります..
8000hz のサンプル レートでモノラル音声クリップをキャプチャしたとします。つまり、データは 4096 バイトです。サイズ 256 の FFT を介して最初の 512 バイト (16 ビット エンコーディング) をフィードすると、128 の値が返され、これを振幅に変換します。したがって、この出力の私の周波数は
FFT BIN #1
0: 0*8000/256
1: 1*8000/256
.
.
127: 127*8000/256
ここまでは順調ですか?これで、未処理のデータが 3584 バイト残っています。したがって、512 バイトのデータに対して 256 サイズの別の fft を実行します。そして、同じ量の結果を得る..だから、このために私は再び次の頻度を持っています:
FFT BIN #2:
Example1:
0: 0*8000/256
1: 1*8000/256
.
.
127: 127*8000/256
また
FFT BIN #2
Example2:
128: 129*8000/256
139: 130*8000/256
.
.
255: 255*8000/256
この振幅/周波数グラフをプロットしたいからです。しかし、これらすべての fft ビンを例 1 のように同じ周波数でオーバーラップする必要があるのか、2 番目の例のように広げる必要があるのか わかりません。
または、完全に冗長なことをしようとしていますか? 私が達成したいのは、他のサウンド ファイルの比較に使用する 30 ~ 50 ミリ秒ごとの時間枠のピーク アンプ値を見つけることです..
誰かが私のためにこれをクリアできるなら、私はとても感謝しています.