次の理由により、あなたのアプローチは一般的な音楽の例では機能しません。
音楽は本質的にダイナミックです。つまり、音楽に存在するすべてのサウンドは、サウンドのエンベロープとしても知られる、沈黙、アタック、サステイン、減衰、そして再び沈黙の明確な期間によって変調されます。
楽器の音と人間の声の音は、単一の音では正しく合成できません。これらの音は、基音と多くの倍音によって合成されなければなりません。
ただし、楽器の音や声の音の基音と倍音を合成するだけでは十分ではなく、上記の 1 で説明したように、音のエンベロープも合成する必要があります。
さらに、楽器であれ声楽であれ、音楽の旋律的なパッセージを合成するには、パッセージのすべての音符に対して上記の項目 1 ~ 3 を合成する必要があります。
最終的なミックス録音から個々の楽器や人間の声を分析的に抽出することは非常に難しい問題であり、あなたのアプローチはその問題に対処していないため、あなたのアプローチは問題 1 ~ 4 に適切に対処できません。
要するに、厳密な分析方法を使用して、音楽レコーディングの最終ミックスからほぼ完璧な音楽のトランスクリプションを抽出しようとするアプローチは、最悪の場合、ほぼ確実に失敗する運命にあり、せいぜい高度な研究の領域に落ちる.
この行き詰まりからどのように進むかは、OP が言及していない作業の目的によって異なります。
この作品は商用製品で使用されますか、それとも趣味のプロジェクトですか?
商業的な作品の場合は、さらにさまざまなアプローチ (費用がかかるものや非常に費用がかかるもの) が必要ですが、これらのアプローチの詳細は作品の目的によって異なります。
最後に、次の理由により、シンセシスがランダムなビープ音のように聞こえます。
基音検出器は、ローリング FFT フレームのタイミングに関連付けられています。これは、実際には、ローリング FFT フレームごとの開始時に偽の基音を生成する可能性があります。
検出された基音が偽物である可能性が高いのはなぜですか? 音楽サンプルを(FFT)フレームに任意にクリッピングしているため、おそらく同時に鳴っている多くの音符を音符の途中で切り捨てているため、音符のスペクトルシグネチャが歪んでいます。
分析に基づいてエンベロープ情報を取得する方法がないため、検出されたノートのエンベロープを合成しようとしているわけではありません。
したがって、合成された結果は、おそらく一連の純粋なサイン チャープであり、ローリング FFT フレームのデルタ t によって時間間隔が空けられています。各チャープは、異なる周波数、異なるエンベロープ マグニチュード、エンベロープの形状がおそらく長方形である可能性があります。
音符の複雑な性質については、次の参考文献をご覧ください。
102.4 KHzまでの楽器スペクトル
楽器音のスペクトルとその時間領域エンベロープ
特に、各ノートを構成する多くの純粋なトーンと、各ノートのタイム ドメイン エンベロープの複雑な形状を観察してください。相互に関連する複数の音符の可変タイミングは、典型的な音楽におけるポリフォニー (複数の声が同時に鳴る) と同様に、音楽の追加の重要な側面です。
音楽のこれらすべての要素が共謀して、自律的な音楽のトランスクリプションへの厳密な分析的アプローチを非常に困難なものにしています。