私は大学で 2 年以上、ポリフォニック CD 録音をスコアに書き写す問題に取り組んできました。問題は難しいことで知られています。この問題に関連する最初の科学論文は 1940 年代にさかのぼり、今日に至るまで、一般的なケースに対する確実な解決策はありません。
あなたが通常読んでいるすべての基本的な仮定は正確には正しくなく、それらのほとんどは十分に間違っているため、非常に単純なシナリオ以外では使用できなくなります。
倍音の周波数は基本周波数の倍数ではありません。非線形効果があるため、高い部分音は期待される周波数から離れてドリフトします。数ヘルツだけではありません。6 分の 1 を期待していた場所に 7 分の 1 部分音を見つけることは珍しいことではありません。
フーリエ変換は、関心のある周波数が対数的に配置されているのに対し、フーリエ変換は線形に配置された周波数を生成するため、オーディオ分析には適していません。低周波数では、隣接するピッチを分離するために高周波数の解像度が必要ですが、これにより時間の解像度が低下し、別々の音符をすばやく連続して再生することができなくなります。
オーディオ録音には、(おそらく)スコアを再構築するために必要なすべての情報が含まれているわけではありません。私たちの音楽認識の大部分は、耳と脳で行われます。そのため、最も成功しているシステムの一部は、(西洋の) 音楽の構造に関する大規模な知識リポジトリを備えたエキスパート システムであり、オーディオ録音から情報を抽出するために信号処理にわずかな部分しか依存していません。
家に帰ったら、読んだ論文に目を通し、最も関連性の高い 20 つか 30 の論文を選んで、ここに追加します。何かを実装することを決定する前に、それらを読むことを強くお勧めします-前に述べたように、ほとんどの一般的な仮定は多少間違っており、実装とテスト中に50年以上にわたって発見および分析されたこれらすべてを再発見したくない.
難しい問題ですが、とても楽しいです。あなたが試したことと、それがどれほどうまくいったかを本当に聞きたいです。
今のところ、Constant Q 変換、ケプストラム、およびウィグナー (–Ville) 分布を見ることができます。短時間フーリエ スペクトルの位相のシフトから周波数を抽出する方法についての優れた論文もいくつかあります。これにより、周波数を数 1000 倍の精度で決定できるため、(高い時間分解能のために) 非常に短いウィンドウ サイズを使用できます。基礎となるフーリエ変換の周波数分解能よりも。
このすべての変換は、通常のフーリエ変換よりもはるかに音声処理の問題に適合します。基本的な変換の結果を改善するには、エネルギー再割り当ての概念を見てください。