0

誰かが「はい」または「いいえ」のどちらを言っているかを識別するために、隠れマルコフモデルを構築しています。私は隠れマルコフモデルを開発し、このページからチュートリアルに出くわしました。

http://www.cslu.ogi.edu/tutordemos/nnet_recog/recog.html

そして、このチュートリアルでは、次のように述べています。

この図は、確率の仮想行列を介して「はい」と「いいえ」の検索パスをトレースしています。「いいえ」のスコアは非常に低いですが、「はい」が語彙に含まれていなかった場合は、この単語の最も可能性の高いパスを見つけることができます。ビタビ検索は、次の擬似コードアルゴリズムを読むことで理解できます(Rabinerの論文、隠れマルコフモデルと音声認識の選択されたアプリケーションに関するチュートリアルから借用した表記法を使用)。

私は両方の論文を読みましたが、彼らが言うところにはまだ混乱しています。

through a hypothetical matrix of probabilities

私の質問は、この確率行列はどこから来るのかということです。たとえば、私は次のことを行いました。

  • オーディオファイルを読む
  • 考慮に値しないオーディオ信号を削除しました
  • 検討が必要な信号をブロックに分割する

これは、音素を含むブロックが残っていることを意味します。データのゼロクロッシングを計算したので、次のようになります。

「いいえ」の場合、これからのデータは非常に少ないですが、

「はい」の場合、これからのデータは非常に高くなります。

したがって、(上記の)例では、次のようになっています。

Even though the score for "no" is very low,

では、ゼロクロッシングの結果を確率として渡すことができますか?私は混乱していて、誰かがこれを手伝ってくれることを願っています。

4

1 に答える 1

2

哲学的な意味で、この確率行列は自然から来ています。さらに深刻なことに、この行列は、自然の真の分布を「知らない」場合(誰も知らない場合)、サンプリングされたデータに対してバウムウェルチによって計算できる遷移行列の概念を表しています。それが彼らがそれが架空のものであると言う理由です。

2番目の質問に関しては、バウムウェルチをゼロ交差サンプルに適用して遷移行列(確率)を取得する必要があります(ゼロ交差サンプルが何であるかはわかりません。通常、mfccはこの種のものに使用されます) 。

さらに説明が必要な場合、または私が何かを誤解している場合はお知らせください。

于 2013-03-14T08:04:33.787 に答える