11

mfcc と隠れマルコフ モデルを使用した音声認識の概念実証システムを開発しました。既知の音でシステムをテストすると、有望な結果が得られます。システムは、未知の音が入力されると、最も近い一致の結果を返しますが、スコアはそれほど明確ではなく、未知の音であると判断することはできません。

私は 3 つの隠れマルコフ モデルを訓練しました。次に、目に見えないデータでそれらをテストし、次の結果を取得します。

input: speech
HMM\knocking:  -1213.8911146444477
HMM\speech:  -617.8735676792728
HMM\watertap:  -1504.4735097322673

So highest score speech which is correct

input: watertap
HMM\knocking:  -3715.7246152783955
HMM\speech:  -4302.67960438553
HMM\watertap:  -1965.6149147201534

So highest score watertap which is correct

input: knocking
HMM\filler  -806.7248912250212
HMM\knocking:  -756.4428782636676
HMM\speech:  -1201.686687761133
HMM\watertap:  -3025.181144273698

So highest score knocking which is correct

input: unknown
HMM\knocking:  -4369.1702184688975
HMM\speech:  -5090.37122832872
HMM\watertap:  -7717.501505674925

ここでは、入力は未知の音ですが、しきい値処理/ガベージ フィルタリングのシステムがないため、最も近い一致が返されます。

キーワードのスポッティングでは、ガベージ モデルまたはフィラー モデルを使用して OOV (語彙外) の音を除外できることを知っていますが、未知の単語の有限セットを使用してトレーニングされているため、これをシステムに適用できないと言われています。システムが記録する可能性のあるすべての音を知っているわけではありません。

音声認識システムで同様の問題をどのように解決しますか? また、誤検知を回避するために問題を解決するにはどうすればよいですか?

4

3 に答える 3

3

他の単語を拒否するには、フィラー モデルが必要です。

これは統計的仮説検定です。2 つの仮説があります (単語は既知であり、単語は不明です)。決定を下すには、各仮説の確率を推定する必要があります。

フィラー モデルは、別の方法で、あなたが持っているスピーチからトレーニングされます。たとえば、任意のスピーチ サウンドに対して単一のガウスである可能性があります。一般的なフィラー モデルのスコアと単語 HMM のスコアを比較して、決定を下します。より詳細な情報と高度なアルゴリズムについては、キーワード スポッティングに関する論文を参照してください。この論文には良いレビューがあります:

データマイニングへの適用を伴うスピーチにおける音響キーワードスポッティング AJ Kishan Thambiratnam

http://eprints.qut.edu.au/37254/1/Albert_Thambiratnam_Thesis.pdf

于 2012-06-22T19:20:04.647 に答える
1

つまり、私が行ったことは次のとおりです。フィラー モデルの簡略化されたバージョンを作成しました。打水音、ノック音、話し声を表す各 hmm は、それぞれ 0.3 秒から 10 秒までのさまざまな長さの 30、50、90 音のトレーニング セットからの音によってトレーニングされた別個の 6 状態の hmm です。次に、ノッキング、ウォータータップ、スピーチのすべてのトレーニング セット音で構成される 1 状態のフィラー モデルを作成しました。したがって、hmm モデル スコアがフィラーのスコアよりも特定の音に対して大きい場合、音は認識されます。それ以外の場合、それは未知の音です。実際には大きなデータはありませんが、目に見えない音に対する偽陽性の拒否と真陽性の拒否について、次のテストを実行しました。

true positives rejection
knocking 1/11 = 90% accuracy
watertap 1/9 = 89% accuracy
speech 0/14 = 100% accuracy


false positives rejection
Tested 7 unknown sounds
6/7 = 86% accuracy

したがって、この簡単なテストから、このアプローチは妥当な結果をもたらすと結論付けることができますが、十分ではないかもしれないという奇妙な感覚があります.

于 2012-06-25T15:14:03.067 に答える
0

識別モデルは、生成モデルよりも分類タスクで優れたパフォーマンスを発揮する傾向があります。

特別に設計された CRF または max-margin 分類器 (構造化された svm) を使用すると、このタスクのパフォーマンスが確実に向上します。

この論文 (http://ttic.uchicago.edu/~jkeshet/papers/KeshetGrBe07.pdf) では、あなたと同様の分類問題について説明し、最大マージン定式化がフィラー モデルを使用した生成的アプローチよりも優れていることを示しています。

私が説明したことをすぐに実行できるものはおそらく何もありませんが、少し努力すれば svm-struct を拡張できるかもしれません。(hmm-svm 実装は、任意に接続された隠れ状態構造を学習するのではなく、事前に隠れ状態構造を指定する必要があるため、問題には機能しません。)

于 2012-07-04T13:00:26.317 に答える