HTK
ワード スポッティング タスクでツールキットを使用していますが、従来のトレーニング データとテスト データの不一致があります。トレーニング データは、「クリーンな」(マイク経由で録音された) データのみで構成されていました。データはパラメーターに変換さMFCC_E_D_A
れ、HMM (電話レベル) によってモデル化されました。私のテスト データは、固定電話と携帯電話のチャネルで記録されています (歪みなどを招きます)。MFCC_E_D_A
パラメータを使用すると、HVite
出力が正しくなくなります。cepstral mean normalization
パラメーターを使用したいのですがMFCC_E_D_A_Z
、HMM はこのデータでモデル化されていないため、あまり役に立ちません。私の質問は次のとおりです。
- に変換する
MFCC_E_D_A_Z
方法はありますMFCC_E_D_A
か? そのように私はこのように従います:input -> MFCC_E_D_A_Z -> MFCC_E_D_A -> HMM log likelihood computation
. MFCC_E_D_A
パラメーターをモデル化する既存の HMM を に変換する方法はありますMFCC_E_D_A_Z
か?
上記の (1) を行う方法がある場合、構成ファイルはHCopy
どのようになりますか? HCopy
変換用に次の構成ファイルを作成しました。
SOURCEFORMAT = MFCC_E_D_A_Z
TARGETKIND = MFCC_E_D_A
TARGETRATE = 100000.0
SAVECOMPRESSED = T
SAVEWITHCRC = T
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 26
CEPLIFTER = 22
NUMCEPS = 12
ENORMALISE = T
これは動作しません。どうすればこれを改善できますか?