speech-recognition - うーんの事後確率を抽出するにはどうすればよいですか?

Question

モデルからフレームレベルでアライメントを抽出しました。

fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

各電話クラスは data/lang/phones.txt ファイルで定義されており、このファイルに従って電話を X 、 X_B 、X_I、X_E、X_S に分けることができます。

_B 音素開始 _E 音素終了、_S 音素シングルトン、_I 中間音素、X 単なる音素。

私は、各音素が 3 つの状態のうーんを使用してデコードされたという印象を受けました。したがって、3 つのフレーム => 3 つの特徴のセット => 3 つのシーケンス化された放出確率のセット => 与えられたフレームレベルで電話をデコードすることが可能であると考えました。音素の決定。

しかし、これは当てはまらないようです。そのため、機能には静的、デルタ、デルタ-デルタからの情報が含まれている必要があります。

この場合、音素ごとに 3 つの状態の期待される事後確率を抽出することは可能ですか?

そして、1セットの機能（音素をデコードするのに十分な）が与えられた場合、それを事前に作成されたスクリプトを指定して音素にデコードすることは可能ですか?

speech-recognition - うーんの事後確率を抽出するにはどうすればよいですか?

0 に答える 0

Related

Reference