7

私は HMM GMM の実装を学習しようとしており、特定の音 (動物の鳴き声など) を検出するための単純なモデルを作成しました。

MATLAB で GMM (ガウス混合物) を使用して HMM (隠れマルコフ モデル) ネットワークをトレーニングしようとしています。

いくつか質問がありますが、情報を見つけることができませんでした。

1)mhmm_em()各 HMM 状態のループで関数を呼び出す必要がありますか、それとも自動的に実行されますか?

そのような:

 for each state
        Initialize GMM’s and get parameters (use mixgauss_init.m)
    end
    Train HMM with EM (use mhmm_em.m)

2)

[LL, prior1, transmat1, mu1, Sigma1, mixmat1] = ...
                            mhmm_em(MFCCs, prior0, transmat0, mu0, Sigma0, mixmat0, 'max_iter', M);

最後のパラメーターは、ガウスの数または number_of_states-1 である必要がありますか?

3)最尤法を探している場合、ビタビの出番はどこでしょうか?

抽出した音響特徴ベクトルを使用してモデルをトレーニングした後、特定の種類の動物/人間の鳴き声を検出したい場合、テスト モードで Viterbi アルゴリズムが必要でしょうか?

少し混乱しています。この部分の説明をいただければ幸いです。

HMM GMM ロジックに関するコードのコメントも歓迎します。

ありがとう

これが私の MATLAB ルーチンです。

O = 21;            % Number of coefficients in a vector(coefficient)
M = 10;            % Number of Gaussian mixtures
Q = 3;             % Number of states (left to right)
%  MFCC Parameters
Tw = 128;           % analysis frame duration (ms)
Ts = 64;           % analysis frame shift (ms)
alpha = 0.95;      % preemphasis coefficient
R = [ 1 1000 ];    % frequency range to consider
f_bank = 20;       % number of filterbank channels 
C = 21;            % number of cepstral coefficients
L = 22;            % cepstral sine lifter parameter(?)

%Training
[speech, fs, nbits ] = wavread('Train.wav');
[MFCCs, FBEs, frames ] = mfcc( speech, fs, Tw, Ts, alpha, hamming, R, f_bank, C, L );
cov_type = 'full'; %the covariance type that is chosen as ҦullҠfor gaussians.
prior0 = normalise(rand(Q,1));
transmat0 = mk_stochastic(rand(Q,Q));
[mu0, Sigma0] = mixgauss_init(Q*M, dat, cov_type, 'kmeans');

mu0 = reshape(mu0, [O Q M]);
Sigma0 = reshape(Sigma0, [O O Q M]);
mixmat0 = mk_stochastic(rand(Q,M));
[LL, prior1, transmat1, mu1, Sigma1, mixmat1] = ...
mhmm_em(MFCCs, prior0, transmat0, mu0, Sigma0, mixmat0, 'max_iter', M);

%Testing
for i = 1:length(filelist)
  fprintf('Processing %s\n', filelist(i).name);
  [speech_tst, fs, nbits ] = wavread(filelist(i).name);
  [MFCCs, FBEs, frames ] = ...
   mfcc( speech_tst, fs, Tw, Ts, alpha, hamming, R, f_bank, C, L);
  loglik(i) = mhmm_logprob( MFCCs,prior1, transmat1, mu1, Sigma1, mixmat1);
end;
[Winner, Winner_idx] = max(loglik);
4

1 に答える 1

1

1) いいえ、EM はモデルを kmeans で初期化した後、モデル全体を推定します。状態を個別に推定することはありません。

2) どちらも、コードの最後のパラメーターは「max_iter」の値であり、EM の反復回数です。通常は 6 前後です。M であってはなりません。

3) はい、テスト モードの Viterbi が必要です。

于 2014-11-01T07:11:23.353 に答える