1

HTKワード スポッティング タスクでツールキットを使用していますが、従来のトレーニング データとテスト データの不一致があります。トレーニング データは、「クリーンな」(マイク経由で録音された) データのみで構成されていました。データはパラメーターに変換さMFCC_E_D_Aれ、HMM (電話レベル) によってモデル化されました。私のテスト データは、固定電話と携帯電話のチャネルで記録されています (歪みなどを招きます)。MFCC_E_D_Aパラメータを使用すると、HVite出力が正しくなくなります。cepstral mean normalizationパラメーターを使用したいのですがMFCC_E_D_A_Z、HMM はこのデータでモデル化されていないため、あまり役に立ちません。私の質問は次のとおりです。

  1. に変換する MFCC_E_D_A_Z方法はありますMFCC_E_D_Aか? そのように私はこのように従います: input -> MFCC_E_D_A_Z -> MFCC_E_D_A -> HMM log likelihood computation.
  2. MFCC_E_D_Aパラメーターをモデル化する既存の HMM を に変換する方法はありますMFCC_E_D_A_Zか?

上記の (1) を行う方法がある場合、構成ファイルはHCopyどのようになりますか? HCopy変換用に次の構成ファイルを作成しました。
SOURCEFORMAT = MFCC_E_D_A_Z
TARGETKIND = MFCC_E_D_A
TARGETRATE = 100000.0
SAVECOMPRESSED = T
SAVEWITHCRC = T
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 26
CEPLIFTER = 22
NUMCEPS = 12
ENORMALISE = T

これは動作しません。どうすればこれを改善できますか?

4

1 に答える 1

2

電話の録音は、チャネル内でクリップされているため、別の範囲の周波数を持つことを理解する必要があります。通常、200 ~ 3500 Hz の周波数範囲が存在します。広帯域音響モデルは 100 から 6800 の範囲でトレーニングされています。電話の音声は 3500 から 6800 の必要な周波数を欠いているため、電話の音声を確実にデコードすることはできません。特徴のタイプや平均の正規化や歪みとは関係ありません。それ

8khz に変換された音声で元のモデルをトレーニングするか、少なくともフィルターバンクのパラメーターを変更して電話の周波数範囲に一致させる必要があります。

于 2011-07-29T23:54:05.357 に答える