2

RBM (制限付きボルツマン マシン) を使用して音声特徴を抽出したい。このために、RBM への入力としてスペクトログラム (PCA 白色化) を与えています。
各オーディオ ファイルのスペクトログラムは、no の行列です。列数は固定されていますが、オーディオ ファイルごとに行数が異なります。このスペクトログラム行列が与えられた場合、RBM をどのようにトレーニングするか、または RBM を使用して音声から特徴を抽出する方法について質問します。Honglak Lee の論文を読みました。その論文のタイトルは、畳み込みディープ ビリーフ ネットワークを使用した音声分類のための教師なし機能学習です。http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_1171.pdf
「次に、フィルター長 6、最大プーリング比 3 で 300 の第 1 層ベースをトレーニングしました。」
まず、ここでいう塩基とは何か。(彼らは Convolutional Deep Belief Networks を使用しているので、基数はここでは重みを意味しないと思います)。
第二に、フィルター長を 6 にすることは何を意味するのでしょうか? どうすればいいですか?ヒントをいただければ幸いです。(私はRBMが初めてです)

4

1 に答える 1

0

ここで紛らわしいのは、深い信念ネットワークに畳み込み層を追加していることだと思います。畳み込み層の考え方は、画像の小さな領域 (この場合は 6 要素ウィンドウ) に固有のカーネルを使用することです。私はオーディオの問題の専門家ではありませんが、ベースはスペクトログラフのさまざまなバンドを参照していると思います。

于 2013-12-13T13:46:41.390 に答える