動物のサウンドクリップを識別できるアプリケーションを開発しようとしています。私がやっていることは、AMR記録を取り込んで、そこからバイト配列を読み取り、FFTを介してそれらのデータを送信し、それに応じて振幅を計算することです。
AMRファイルのサンプル周波数8KHz(15秒の標準AMR)
8192個の値を入力するためのFFTポイントの数4096
次に、振幅を振幅= 2*FFTポイント値/8192で計算します。
したがって、私の意図は、最大振幅に関連する周波数でスパイクを取得することです。問題は、最大振幅でのスパイクが、同じ動物の他のサウンドクリップに対して一貫していないことです。別のサウンドクリップの場合、最大振幅に関連する周波数が変化します。これには理由がありますか?これに関するヘルプとガイダンスをいただければ幸いです。前もって感謝します。