モデルからフレーム レベルでアライメントを抽出しました。
fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
各電話クラスは data/lang/phones.txt ファイルで定義されており、このファイルに従って電話を X 、 X_B 、X_I、X_E、X_S に分けることができます。
_B 音素開始 _E 音素終了、_S 音素シングルトン、_I 中間音素、X 単なる音素。
私は、各音素が 3 つの状態のうーんを使用してデコードされたという印象を受けました。したがって、3 つのフレーム => 3 つの特徴のセット => 3 つのシーケンス化された放出確率のセット => 与えられたフレーム レベルで電話をデコードすることが可能であると考えました。音素の決定。
しかし、これは当てはまらないようです。そのため、機能には静的、デルタ、デルタ-デルタからの情報が含まれている必要があります。
この場合、音素ごとに 3 つの状態の期待される事後確率を抽出することは可能ですか?
そして、1セットの機能(音素をデコードするのに十分な)が与えられた場合、それを事前に作成されたスクリプトを指定して音素にデコードすることは可能ですか?