HPS方式を使用してiPhoneに音声ピッチ検出を実装することを検討していました。しかし、検出されたトーンはあまり正確ではありません。Performousはピッチ検出のまともな仕事をします。
コードを調べましたが、計算の背後にある理論を完全には理解できませんでした。彼らはFFTを使用して、ピークを見つけます。しかし、彼らがFFT出力の位相を使用している部分は、私を混乱させました。彼らは音声周波数にいくつかのヒューリスティックを使用していると思います。
では、Performousでピッチを検出するために使用されるアルゴリズムを誰か説明してもらえますか?