私は学生で、ほんの数か月前に信号処理を始めたばかりです。私は自分のプロジェクトに「A Novel Fuzzy Approach to Speech Recognition」を選びました (ダウンロード可能なバージョンをグーグルで検索できます)。
トレーニング データをメル フィルターを通過したスペクトログラムに変換するのに少し手こずっています。
もちろん、少し変更して、これを mel-filterbankに使用します。
次に、この簡単なコードを書いて、トレーニング データのスペクトログラムを作成しました。
p =25;
fl =0.0;
fh =0.5;
w ='hty';
[a,fs]=wavread('a.wav'); %you can simply record a sound and name it a.wav, other param will follows
n=length(a)+1;
fa=rfft(a);
xa=melbank_me(p,n,fs); %the mel-filterbank function
za=log(xa*abs(fa).^2);
ca=dct(za);
spectrogram(ca(:,1))
私が得たのはこのようなものだけで、紙のようではありません::
私のコードまたは私が持っているスペクトログラムが正しかったことを教えてください。もしそうなら、私のスペクトログラムを論文のようにするために何をしなければなりませんか? そうでない場合は、どこが間違っているのか教えてください
そして別の質問ですが、FFT の長さをそんなに長くしても大丈夫ですか? 下げようとすると、コードでエラーが発生するためです。