signal-processing - ある MFCC タイプから別のタイプへの変換 - HTK

Question

HTKワードスポッティングタスクでツールキットを使用していますが、従来のトレーニングデータとテストデータの不一致があります。トレーニングデータは、「クリーンな」(マイク経由で録音された) データのみで構成されていました。データはパラメーターに変換さMFCC_E_D_Aれ、HMM (電話レベル) によってモデル化されました。私のテストデータは、固定電話と携帯電話のチャネルで記録されています (歪みなどを招きます)。MFCC_E_D_Aパラメータを使用すると、HVite出力が正しくなくなります。cepstral mean normalizationパラメーターを使用したいのですがMFCC_E_D_A_Z、HMM はこのデータでモデル化されていないため、あまり役に立ちません。私の質問は次のとおりです。

に変換する MFCC_E_D_A_Z方法はありますMFCC_E_D_Aか? そのように私はこのように従います: input -> MFCC_E_D_A_Z -> MFCC_E_D_A -> HMM log likelihood computation.
MFCC_E_D_Aパラメーターをモデル化する既存の HMM をに変換する方法はありますMFCC_E_D_A_Zか?

上記の (1) を行う方法がある場合、構成ファイルはHCopyどのようになりますか? HCopy変換用に次の構成ファイルを作成しました。
SOURCEFORMAT = MFCC_E_D_A_Z TARGETKIND = MFCC_E_D_A TARGETRATE = 100000.0 SAVECOMPRESSED = T SAVEWITHCRC = T WINDOWSIZE = 250000.0 USEHAMMING = T PREEMCOEF = 0.97 NUMCHANS = 26 CEPLIFTER = 22 NUMCEPS = 12 ENORMALISE = T

これは動作しません。どうすればこれを改善できますか?

score 2 · Accepted Answer

電話の録音は、チャネル内でクリップされているため、別の範囲の周波数を持つことを理解する必要があります。通常、200 ～ 3500 Hz の周波数範囲が存在します。広帯域音響モデルは 100 から 6800 の範囲でトレーニングされています。電話の音声は 3500 から 6800 の必要な周波数を欠いているため、電話の音声を確実にデコードすることはできません。特徴のタイプや平均の正規化や歪みとは関係ありません。それ

8khz に変換された音声で元のモデルをトレーニングするか、少なくともフィルターバンクのパラメーターを変更して電話の周波数範囲に一致させる必要があります。

signal-processing - ある MFCC タイプから別のタイプへの変換 - HTK

1 に答える 1

Related

Reference