0

あいさつ仲間、

私は必死になってhtk3.4で変更する必要のあるファイルを見つけようとしています。これにより、音素/発話のモノフォンの後方プローブのシーケンスを直接読み取り、音響モデルと言語モデルの両方を指定してデコーダーに直接転送できます。

より詳細には、ステップ9までのHTKチュートリアルに従っており、モノフォンで作業したいだけです。私の(独自の、特定の)特徴ベクトルは、各音素の3つの状態の確率を持つベクトルのシーケンスです。

(p(aa_begin)、p(aa_mid)、p(aa_end)、...、p(z_begin)、p(z_mid)、p(z_end))

発話の各フレームについて、エントリは、上記のように、すでに後方の確率です。

(特定の)ファイル(独自のバイナリ形式)からそれらを読み取るためにどのファイルを変更する必要があるか、およびそれらをデコーダーに直接転送する方法はありますか?HViteとHEResultを使用して結果を取得できるようにするのに最適ですか?

助けてくれてありがとう、G。

4

1 に答える 1

0

HVite のオプション -f は、希望どおりの結果を表示すると思います。私が送信するコマンドは次のとおりです。

./HVite -T 1 -f -b sil -C config -a -H model/hmm7/macros -H model/hmm7/hmmdefs -i word1.mlf -m -t 250.0 -y lab -I word.mlf -S train.scp -L label/ dict.list phone1.list

そして、これはファイル word1.mlf の始まりです (s2、s3、s4 は各音素の中央と終わりの始まりです)

"mfc/dr1_fcjf0_sa1.lab"

0 100000 s2 -48.580540 sil -1204.165527 sil

100000 400000 s3 -158.456665

400000 1900000 s4 -997.128357

1900000 2000000 s2 -75.405327 SH -530.110291 SHE

2000000 2500000 s3 -306.394897

2500000 2700000 s4 -148.310074

2700000 3000000 s2 -252.779510 IY -796.414673

3000000 3300000 s3 -214.586655

3300000 3700000 s4 -329.048492
于 2015-09-24T11:14:26.953 に答える