音素を識別して、誰かが「はい」または「いいえ」のどちらを言っているのかを識別できるようにするプロジェクトを開発しています。
これまでのプロジェクトでは、ゼロクロッシングを使用してその人の発言を特定してきました。これは非常にうまく機能し、理解するのに十分簡単に思えます。ただし、このプロジェクトにはいくつかの拡張が必要であり、隠れマルコフ モデルを使用して開発する必要があります。
私の質問はこれです:
すでに完了した作業を消去せずに、隠れマルコフ モデルを開発したい。つまり、ブロックの合計だけでなく、ゼロ交差の数を数えることによって、考慮する必要のないデータを取り除きます。
これらの音素を識別できるようにするために、HMM をトレーニングするために必要なデータがわかりません。例えば
ゼロクロッシングを使用すると、次のことを識別できます。
はい - ゼロクロッシングは低く始まり、その後値が増加します
いいえ - ゼロクロッシングは低い値から始まり、その後値とともに増加しません。
これらの値を解釈するように HMM アルゴリズムをトレーニングできますか?
または、サンプルに入力された単語を識別できるように HMM をトレーニングできる方法を誰かが提案できますか?
誰かが助けてくれることを願っています:)!