誰かが「はい」または「いいえ」のどちらを言っているかを識別するために、隠れマルコフモデルを構築しています。私は隠れマルコフモデルを開発し、このページからチュートリアルに出くわしました。
http://www.cslu.ogi.edu/tutordemos/nnet_recog/recog.html
そして、このチュートリアルでは、次のように述べています。
この図は、確率の仮想行列を介して「はい」と「いいえ」の検索パスをトレースしています。「いいえ」のスコアは非常に低いですが、「はい」が語彙に含まれていなかった場合は、この単語の最も可能性の高いパスを見つけることができます。ビタビ検索は、次の擬似コードアルゴリズムを読むことで理解できます(Rabinerの論文、隠れマルコフモデルと音声認識の選択されたアプリケーションに関するチュートリアルから借用した表記法を使用)。
私は両方の論文を読みましたが、彼らが言うところにはまだ混乱しています。
through a hypothetical matrix of probabilities
私の質問は、この確率行列はどこから来るのかということです。たとえば、私は次のことを行いました。
- オーディオファイルを読む
- 考慮に値しないオーディオ信号を削除しました
- 検討が必要な信号をブロックに分割する
これは、音素を含むブロックが残っていることを意味します。データのゼロクロッシングを計算したので、次のようになります。
「いいえ」の場合、これからのデータは非常に少ないですが、
「はい」の場合、これからのデータは非常に高くなります。
したがって、(上記の)例では、次のようになっています。
Even though the score for "no" is very low,
では、ゼロクロッシングの結果を確率として渡すことができますか?私は混乱していて、誰かがこれを手伝ってくれることを願っています。