私はホイッスル検出などに関する多くの質問について StackOverflow と Web をくまなく調べました。
しかし、特定のサンプル オーディオ データで特定のサウンドを検出するのに FFT がどのように役立つのかはわかりません。あちこちで見つけたものから、これまでのところ私が理解していることは次のとおりです。
-The sine wave is more or less the building block of ALL signals, musical or not
-Three parameters - FREQUENCY, AMPLITUDE, and INITIAL PHASE, characterize every steady sine wave completely.
-They make each and any kind of wave unique.
-Fourier transform can be used to inspect what kinds of sine waves there are in a signal
SOURCE -- [Audio signal processing basics][3]
Audio data that the computer generates as received from the mic or other input source, for live processing, is an array of amplitudes processed (or stored or taken) at a particular sample rate.
では、そこから口笛や拍手を検出するにはどうすればよいのでしょうか。特定の曲に合わせて短い口笛を吹くなど、複雑なことはありますか?
私の検出理論は、スペクトログラムでホイッスルをテストし、特定の周波数と振幅特性を記録するというものです。そして、これらの特定の特性が入力で再び繰り返される場合、ホイッスルが検出されたことになります。私は正しいですか、それとも間違っていますか?このサウンド処理は少し複雑です。
これについて言及するのを忘れていました - 私は Python を使用しています。Java も問題ありません。私が見つけたサンプル コードのほとんどは Java である Android 用のものだったからです。また、Java でも作業できます。ライブラリや API についての言及も役に立ちます。