0

音素を識別して、誰かが「はい」または「いいえ」のどちらを言っているのかを識別できるようにするプロジェクトを開発しています。

これまでのプロジェクトでは、ゼロクロッシングを使用してその人の発言を特定してきました。これは非常にうまく機能し、理解するのに十分簡単に​​思えます。ただし、このプロジェクトにはいくつかの拡張が必要であり、隠れマルコフ モデルを使用して開発する必要があります。

私の質問はこれです:

すでに完了した作業を消去せずに、隠れマルコフ モデルを開発したい。つまり、ブロックの合計だけでなく、ゼロ交差の数を数えることによって、考慮する必要のないデータを取り除きます。

これらの音素を識別できるようにするために、HMM をトレーニングするために必要なデータがわかりません。例えば

ゼロクロッシングを使用すると、次のことを識別できます。

はい - ゼロクロッシングは低く始まり、その後値が増加します

いいえ - ゼロクロッシングは低い値から始まり、その後値とともに増加しません。

これらの値を解釈するように HMM アルゴリズムをトレーニングできますか?

または、サンプルに入力された単語を識別できるように HMM をトレーニングできる方法を誰かが提案できますか?

誰かが助けてくれることを願っています:)!

4

2 に答える 2

2

これらの値を解釈するように HMM アルゴリズムをトレーニングできますか?

はい、間違いなく

または、サンプルに入力された単語を識別できるように HMM をトレーニングできる方法を誰かが提案できますか?

ゼロクロッシング レートを 14 番目の機能などの MFCC 機能と一緒に機能ファイルに配置し、CMUSphinx や HTK などの標準的な HMM トレーニング ツールキットを使用して HMM をトレーニングし、それを使用してデコードするだけです。詳細については、

http://cmusphinx.sourceforge.net/wiki/mfcformat

また

http://speech-research.com/htkSearch/index.php?ID=297039

http://speech-research.com/SRTxt2User/index.html

于 2012-11-17T07:49:25.843 に答える
0

自動化された音素セグメンテーションは困難な問題であるため、このトピックについてさまざまな詳細レベルで触れているお気に入りのリソースをいくつか紹介します。

この論文: http://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf

この論文: http://www.ll.mit.edu/publications/journal/pdf/vol08_no2/8.2.1.languageidentification.pdf

このリソースは非常に優れています: http://research.microsoft.com/pubs/118769/Book-Chap-HuangDeng2010.pdf

この本は、音素識別の良い例をいくつか示しています: http://www.amazon.com/Speech-Recognition-Theory-C-Implementation/dp/0471977306/

この本もかなり良いです: http://www.amazon.com/Statistical-Methods-Recognition-Language-Communication/dp/0262100665/

本は高価ですが、それだけの価値があります(私の意見では)

于 2012-11-16T22:11:32.073 に答える