algorithm - ジェスチャ認識のための HMM アルゴリズム

Question

Kinect とを使ってジェスチャー認識のアプリを開発したいhidden Markov models。ここでチュートリアルを見ました：HMMレクチャー

でも、どうやって始めたらいいのかわからない。HMM状態セットとは何か、学習を実現するためにデータを正規化する方法は? 信号と単純な「左から右」の場合にどのように行うべきかは (多かれ少なかれ) 知っていますが、3D 空間では少し混乱します。誰かがそれをどのように始めるべきか説明できますか?

誰でも手順を説明できますか、これを行う方法はありますか? HMM特に、モデルの作成方法とアルゴリズムの手順を知る必要があります。

score 10 · Accepted Answer

ジェスチャ認識にHMMを適用するための一連の方法は、音声認識に一般的に使用されるのと同様のアーキテクチャを適用することです。

HMMは空間ではなく時間の経過とともに存在し、各ビデオフレーム（またはフレームから抽出された特徴のセット）はHMM状態からの放出になります。

残念ながら、HMMベースの音声認識はかなり広い領域です。多くの本や論文は、さまざまなアーキテクチャを説明するために書かれています。Jelinekの「音声認識の統計的手法」（http://books.google.ca/books?id=1C9dzcJTWowC&pg=PR5#v=onepage&q&f=false）から始めて、そこからの参照に従うことをお勧めします。もう1つのリソースは、CMU sphinx Webページ（http://cmusphinx.sourceforge.net）です。

覚えておくべきもう1つのことは、HMMベースのシステムは、条件付き確率場や最大マージン認識器（SVM-structなど）のような識別アプローチよりもおそらく精度が低いということです。

HMMベースの認識機能の場合、全体的なトレーニングプロセスは通常次のようになります。

1）生データに対して何らかの信号処理を実行します

スピーチの場合、これには生のオーディオをメルケプストラム形式に変換することが含まれますが、ジェスチャの場合、これには画像の特徴（SIFT、GISTなど）の抽出が含まれる場合があります。

2）処理されたデータにベクトル量子化（VQ）（他の次元削減手法も使用できます）を適用します

各クラスター重心は通常、タスクの基本単位に関連付けられています。たとえば、音声認識では、各重心を音素に関連付けることができます。ジェスチャ認識タスクの場合、各VQ重心をポーズまたは手の構成に関連付けることができます。

3）状態遷移がジェスチャ内のさまざまなポーズのシーケンスをキャプチャするHMMを手動で構築します。

これらのHMM状態の放出分布は、ステップ2のVQベクトルを中心にしています。
音声認識では、これらのHMMは、各単語の音素のシーケンスを提供する音素辞書から構築されます。

4）個々のジェスチャHMM（または音声認識の場合は各音素HMM）間の遷移を含む単一のHMMを構築します。次に、ジェスチャーのビデオを使用して複合HMMをトレーニングします。

この時点で、共同トレーニングステップの前に各ジェスチャHMMを個別にトレーニングすることもできます。この追加のトレーニングステップにより、認識が向上する可能性があります。

認識プロセスでは、信号処理ステップを適用し、各フレームに最も近いVQエントリを見つけてから、HMMを通る高スコアのパス（ビタビパスまたはA *検索からのパスのセットの1つ）を見つけます。量子化されたベクトル。このパスは、ビデオで予測されるジェスチャを提供します。

score 1 · Accepted Answer

これの2DバージョンをCourseraPGMクラスに実装しました。これは、最終ユニットとしてkinectジェスチャを備えています。

https://www.coursera.org/course/pgm

基本的に、HMMを使用して実際にポーズをうまく決定することはできないという考え方です。私たちのユニットでは、K-meansのいくつかのバリエーションを使用して、ポーズを確率的カテゴリにセグメント化しました。HMMは、ジェスチャーとして実際に実行可能なポーズのシーケンスを実際に決定するために使用されました。ただし、一連のポーズで実行されるクラスタリングアルゴリズムは、それらがどのようなポーズであるか、または類似したものであるかがわからない場合でも、適切な候補です。

そこから、kinectデータの各ポイントの可能な各ポーズの総確率をトレーニングするモデルを作成できます。

私はこれが少しまばらなインタビューであることを知っています。そのクラスは、最先端の優れた概要を提供しますが、一般的な問題は、簡単な答えに凝縮するには少し難しすぎます。（この分野に興味がある場合は、4月に服用することをお勧めします）

algorithm - ジェスチャ認識のための HMM アルゴリズム

2 に答える 2

Related

Reference