MIDIイベントを抽象化して、ノートのピッチ/デュレーション/ダイナミック/オンセットを抽出/合成するものが必要です(たとえば、4拍目の大音量のD#四分音符)。
Fluidsynthと臆病さは機能しますが、私は純粋なpythonライブラリを好みます。ここではバインディング以外は何も見つかりません。
midiutilはmidisを作成し、pygameはそれらを再生しますが、生のオーディオデータを合成し、音符を量子化できるものが必要です(つまり、midiイベント/パルス/「ピッチ」などではなく、楽譜で表されるように)。
これらを編集してください(Pythonではないか、低レベルであるか、「自分で行う」):
MIDIファイルからノートデータを取得します
Python:midiからオーディオストリーム