HTKワード スポッティング タスクでツールキットを使用していますが、従来のトレーニング データとテスト データの不一致があります。トレーニング データは、「クリーンな」(マイク経由で録音された) データのみで構成されていました。データはパラメーターに変換さMFCC_E_D_Aれ、HMM (電話レベル) によってモデル化されました。私のテスト データは、固定電話と携帯電話のチャネルで記録されています (歪みなどを招きます)。MFCC_E_D_Aパラメータを使用すると、HVite出力が正しくなくなります。cepstral mean normalizationパラメーターを使用したいのですがMFCC_E_D_A_Z、HMM はこのデータでモデル化されていないため、あまり役に立ちません。私の質問は次のとおりです。
- に変換する
MFCC_E_D_A_Z方法はありますMFCC_E_D_Aか? そのように私はこのように従います:input -> MFCC_E_D_A_Z -> MFCC_E_D_A -> HMM log likelihood computation. MFCC_E_D_Aパラメーターをモデル化する既存の HMM を に変換する方法はありますMFCC_E_D_A_Zか?
上記の (1) を行う方法がある場合、構成ファイルはHCopyどのようになりますか? HCopy変換用に次の構成ファイルを作成しました。
SOURCEFORMAT = MFCC_E_D_A_Z
TARGETKIND = MFCC_E_D_A
TARGETRATE = 100000.0
SAVECOMPRESSED = T
SAVEWITHCRC = T
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 26
CEPLIFTER = 22
NUMCEPS = 12
ENORMALISE = T
これは動作しません。どうすればこれを改善できますか?