Caffe を使用した CNN に基づく 1 次元信号分類 (音声信号など) の簡単で直接的な例を探しています。
Caffe Web サイトから、画像分類タスクであるいくつかの例とチュートリアルに従うことができます。代わりに、1 次元信号の例とチュートリアルを探しています。
あなたの答えは本当に感謝しています。
概念的には、1D データと 2D データの操作に意味のある違いはありません。2D 画像の代わりに 1D の形状の「画像」(チャンネル: 1、高さ: 1、幅: d) を持つデータベースが必要で、すべてのカーネルがkernel_sizeの代わりにkernel_wとkernel_hを使用するようにします(カーネルを正方形に設定します)。
使用できるアーキテクチャの例を探している場合は、生の波形音声データで CNN をトレーニングするために従うことができるこの記事があります: Raw Multichannel Waveforms からの Speech Acoustic Modeling。
Caffe の Github ページには、音声ドメインの例を要求する未解決の問題もあり、参照できる潜在的な実装へのより多くのリンクがあります。