2

Caffe を使用した CNN に基づく 1 次元信号分類 (音声信号など) の簡単で直接的な例を探しています。

Caffe Web サイトから、画像分類タスクであるいくつかの例とチュートリアルに従うことができます。代わりに、1 次元信号の例とチュートリアルを探しています。

あなたの答えは本当に感謝しています。

4

1 に答える 1

2

概念的には、1D データと 2D データの操作に意味のある違いはありません。2D 画像の代わりに 1D の形状の「画像」(チャンネル: 1、高さ: 1、幅: d) を持つデータベースが必要で、すべてのカーネルがkernel_sizeの代わりにkernel_wkernel_hを使用するようにします(カーネルを正方形に設定します)。

使用できるアーキテクチャの例を探している場合は、生の波形音声データで CNN をトレーニングするために従うことができるこの記事があります: Raw Multichannel Waveforms からの Speech Acoustic Modeling

Caffe の Github ページには、音声ドメインの例を要求する未解決の問題もあり、参照できる潜在的な実装へのより多くのリンクがあります。

于 2015-06-30T10:30:22.607 に答える