歌声からピッチを抽出したいです。問題のトラックにはボイスが 1 つだけ含まれており、他のサウンドは含まれていません。
特定の時点でのラウドネスと知覚されるピッチ周波数を知りたいです。したがって、次のようなものです。
0.0秒 400Hz -20dB 0.1秒 401Hz -9dB 0.2秒 403Hz -10dB 0.3秒 403Hz -10dB 0.4秒 404Hz -11dB 0.5秒 406Hz -13dB 0.6秒 410Hz -15dB 0.7秒 411Hz -16dB 0.8秒 409Hz -20dB 0.9秒 407Hz -24dB 1.0秒 402Hz -34dB
どうすればそのような出力を達成できますか? 特定の音価に当てはめたときの周波数のわずかな変化に興味があります。私は DSP の知識があり、C++ と Python でプログラミングできますが、できれば車輪の再発明は避けたいと思っています。