モノラル楽譜からシーケンスを生成するモデルをトレーニングしようとしています。インターネットの周りで、文字レベルの lstm ネットワークと音楽 ABC 表記法でこれを行っている人々の例をいくつか見つけました (Torch で karpathy の実装を多く使用しています: http://karpathy.github.io/2015/05/21/rnn-effectiveness / )。
これはかなり効果的であるように見えますが、シーケンスには音楽情報ができるだけコンパクトに含まれていません。私が考えたのは、音楽情報を一連の音符として直接表現することでした。ただし、音には複数の特徴があります。ピッチ、オクターブ、デュレーション、次の音に接続されているかなどです。この情報を特徴ベクトルとして適切に表現する方法がわかりません。また、この主題に関する多くの情報も見つかりませんでした。 .
私のデータセットには、音のピッチと長さの多様性がかなり限られています。3 オクターブ、10 の異なる音符の長さ、4/4 拍子記号のみが含まれている可能性があります。ただし、これらのメモのそれぞれの異なる組み合わせを表すと、膨大な入力特徴ベクトルが得られます。
どんなアドバイスでも大歓迎です!