次のリンク、アドバイス、またはその他の形式のヘルプを提供できる人はいますか?
目的 - Python を使用して 10 秒のオーディオ サンプルを分類し、後でマイクに向かって話し、Python が db から最も近い一致のスニペット (一緒にフェード) を選択して再生できるようにします。
私の目的は、最も近い一致を得ることではなく、オーディオ サンプルのソースが何であるかは気にしません。したがって、結果はおそらく、ノイズの中で話す (楽しい) 以外には役に立たないでしょう。
Python アプリで、たとえば db の 10 秒のサンプル内で FFT の特定の一致を見つけられるようにしたいと考えています。マイクのリアルタイム サンプリングには 100 ミリ秒のバッファサンプルがあると思います。
何か案は?FFT? 何デシベル?他の?