CNN を適用して音声を音声/非音声として分類したいと考えており、同じ MFCC 機能を計算しました。Caffe などのいくつかの NN ライブラリを調べましたが、画像としての入力を期待しているようです。MFCC を CNN の入力として使用するにはどうすればよいですか?
CNN を適用して音声を音声/非音声として分類したいと考えており、同じ MFCC 機能を計算しました。Caffe などのいくつかの NN ライブラリを調べましたが、画像としての入力を期待しているようです。MFCC を CNN の入力として使用するにはどうすればよいですか?