statistics - 隠れマルコフモデル - 音素の識別

Question

音素を識別して、誰かが「はい」または「いいえ」のどちらを言っているのかを識別できるようにするプロジェクトを開発しています。

これまでのプロジェクトでは、ゼロクロッシングを使用してその人の発言を特定してきました。これは非常にうまく機能し、理解するのに十分簡単に思えます。ただし、このプロジェクトにはいくつかの拡張が必要であり、隠れマルコフモデルを使用して開発する必要があります。

私の質問はこれです：

すでに完了した作業を消去せずに、隠れマルコフモデルを開発したい。つまり、ブロックの合計だけでなく、ゼロ交差の数を数えることによって、考慮する必要のないデータを取り除きます。

これらの音素を識別できるようにするために、HMM をトレーニングするために必要なデータがわかりません。例えば

ゼロクロッシングを使用すると、次のことを識別できます。

はい - ゼロクロッシングは低く始まり、その後値が増加します

いいえ - ゼロクロッシングは低い値から始まり、その後値とともに増加しません。

これらの値を解釈するように HMM アルゴリズムをトレーニングできますか?

または、サンプルに入力された単語を識別できるように HMM をトレーニングできる方法を誰かが提案できますか?

誰かが助けてくれることを願っています:)！

score 2 · Accepted Answer

これらの値を解釈するように HMM アルゴリズムをトレーニングできますか?

はい、間違いなく

または、サンプルに入力された単語を識別できるように HMM をトレーニングできる方法を誰かが提案できますか?

ゼロクロッシングレートを 14 番目の機能などの MFCC 機能と一緒に機能ファイルに配置し、CMUSphinx や HTK などの標準的な HMM トレーニングツールキットを使用して HMM をトレーニングし、それを使用してデコードするだけです。詳細については、

また

score 0 · Accepted Answer

自動化された音素セグメンテーションは困難な問題であるため、このトピックについてさまざまな詳細レベルで触れているお気に入りのリソースをいくつか紹介します。

本は高価ですが、それだけの価値があります（私の意見では）

statistics - 隠れマルコフ モデル - 音素の識別