ジェスチャ認識にHMMを適用するための一連の方法は、音声認識に一般的に使用されるのと同様のアーキテクチャを適用することです。
HMMは空間ではなく時間の経過とともに存在し、各ビデオフレーム(またはフレームから抽出された特徴のセット)はHMM状態からの放出になります。
残念ながら、HMMベースの音声認識はかなり広い領域です。多くの本や論文は、さまざまなアーキテクチャを説明するために書かれています。Jelinekの「音声認識の統計的手法」(http://books.google.ca/books?id=1C9dzcJTWowC&pg=PR5#v=onepage&q&f=false)から始めて、そこからの参照に従うことをお勧めします。もう1つのリソースは、CMU sphinx Webページ(http://cmusphinx.sourceforge.net)です。
覚えておくべきもう1つのことは、HMMベースのシステムは、条件付き確率場や最大マージン認識器(SVM-structなど)のような識別アプローチよりもおそらく精度が低いということです。
HMMベースの認識機能の場合、全体的なトレーニングプロセスは通常次のようになります。
1)生データに対して何らかの信号処理を実行します
- スピーチの場合、これには生のオーディオをメルケプストラム形式に変換することが含まれますが、ジェスチャの場合、これには画像の特徴(SIFT、GISTなど)の抽出が含まれる場合があります。
2)処理されたデータにベクトル量子化(VQ)(他の次元削減手法も使用できます)を適用します
- 各クラスター重心は通常、タスクの基本単位に関連付けられています。たとえば、音声認識では、各重心を音素に関連付けることができます。ジェスチャ認識タスクの場合、各VQ重心をポーズまたは手の構成に関連付けることができます。
3)状態遷移がジェスチャ内のさまざまなポーズのシーケンスをキャプチャするHMMを手動で構築します。
4)個々のジェスチャHMM(または音声認識の場合は各音素HMM)間の遷移を含む単一のHMMを構築します。次に、ジェスチャーのビデオを使用して複合HMMをトレーニングします。
- この時点で、共同トレーニングステップの前に各ジェスチャHMMを個別にトレーニングすることもできます。この追加のトレーニングステップにより、認識が向上する可能性があります。
認識プロセスでは、信号処理ステップを適用し、各フレームに最も近いVQエントリを見つけてから、HMMを通る高スコアのパス(ビタビパスまたはA *検索からのパスのセットの1つ)を見つけます。量子化されたベクトル。このパスは、ビデオで予測されるジェスチャを提供します。