RBM (制限付きボルツマン マシン) を使用して音声特徴を抽出したい。このために、RBM への入力としてスペクトログラム (PCA 白色化) を与えています。
各オーディオ ファイルのスペクトログラムは、no の行列です。列数は固定されていますが、オーディオ ファイルごとに行数が異なります。このスペクトログラム行列が与えられた場合、RBM をどのようにトレーニングするか、または RBM を使用して音声から特徴を抽出する方法について質問します。Honglak Lee の論文を読みました。その論文のタイトルは、畳み込みディープ ビリーフ ネットワークを使用した音声分類のための教師なし機能学習です。http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_1171.pdf
「次に、フィルター長 6、最大プーリング比 3 で 300 の第 1 層ベースをトレーニングしました。」
まず、ここでいう塩基とは何か。(彼らは Convolutional Deep Belief Networks を使用しているので、基数はここでは重みを意味しないと思います)。
第二に、フィルター長を 6 にすることは何を意味するのでしょうか? どうすればいいですか?ヒントをいただければ幸いです。(私はRBMが初めてです)