7

Kinect と を使ってジェスチャー認識のアプリを開発したいhidden Markov models。ここでチュートリアルを見ました:HMMレクチャー

でも、どうやって始めたらいいのかわからない。HMM状態セットとは何か、学習を実現するためにデータを正規化する方法は? 信号と単純な「左から右」の場合にどのように行うべきかは (多かれ少なかれ) 知っていますが、3D 空間では少し混乱します。誰かがそれをどのように始めるべきか説明できますか?

誰でも手順を説明できますか、これを行う方法はありますか? HMM特に、モデルの作成方法とアルゴリズムの手順を知る必要があります。

4

2 に答える 2

10

ジェスチャ認識にHMMを適用するための一連の方法は、音声認識に一般的に使用されるのと同様のアーキテクチャを適用することです。

HMMは空間ではなく時間の経過とともに存在し、各ビデオフレーム(またはフレームから抽出された特徴のセット)はHMM状態からの放出になります。

残念ながら、HMMベースの音声認識はかなり広い領域です。多くの本や論文は、さまざまなアーキテクチャを説明するために書かれています。Jelinekの「音声認識の統計的手法」(http://books.google.ca/books?id=1C9dzcJTWowC&pg=PR5#v=onepage&q&f=false)から始めて、そこからの参照に従うことをお勧めします。もう1つのリソースは、CMU sphinx Webページ(http://cmusphinx.sourceforge.net)です。

覚えておくべきもう1つのことは、HMMベースのシステムは、条件付き確率場や最大マージン認識器(SVM-structなど)のような識別アプローチよりもおそらく精度が低いということです。

HMMベースの認識機能の場合、全体的なトレーニングプロセスは通常次のようになります。

1)生データに対して何らかの信号処理を実行します

  • スピーチの場合、これには生のオーディオをメルケプストラム形式に変換することが含まれますが、ジェスチャの場合、これには画像の特徴(SIFT、GISTなど)の抽出が含まれる場合があります。

2)処理されたデータにベクトル量子化(VQ)(他の次元削減手法も使用できます)を適用します

  • 各クラスター重心は通常、タスクの基本単位に関連付けられています。たとえば、音声認識では、各重心を音素に関連付けることができます。ジェスチャ認識タスクの場合、各VQ重心をポーズまたは手の構成に関連付けることができます。

3)状態遷移がジェスチャ内のさまざまなポーズのシーケンスをキャプチャするHMMを手動で構築します。

  • これらのHMM状態の放出分布は、ステップ2のVQベクトルを中心にしています。

  • 音声認識では、これらのHMMは、各単語の音素のシーケンスを提供する音素辞書から構築されます。

4)個々のジェスチャHMM(または音声認識の場合は各音素HMM)間の遷移を含む単一のHMMを構築します。次に、ジェスチャーのビデオを使用して複合HMMをトレーニングします。

  • この時点で、共同トレーニングステップの前に各ジェスチャHMMを個別にトレーニングすることもできます。この追加のトレーニングステップにより、認識が向上する可能性があります。

認識プロセスでは、信号処理ステップを適用し、各フレームに最も近いVQエントリを見つけてから、HMMを通る高スコアのパス(ビタビパスまたはA *検索からのパスのセットの1つ)を見つけます。量子化されたベクトル。このパスは、ビデオで予測されるジェスチャを提供します。

于 2013-02-04T20:34:39.563 に答える
1

これの2DバージョンをCourseraPGMクラスに実装しました。これは、最終ユニットとしてkinectジェスチャを備えています。

https://www.coursera.org/course/pgm

基本的に、HMMを使用して実際にポーズをうまく決定することはできないという考え方です。私たちのユニットでは、K-meansのいくつかのバリエーションを使用して、ポーズを確率的カテゴリにセグメント化しました。HMMは、ジェスチャーとして実際に実行可能なポーズのシーケンスを実際に決定するために使用されました。ただし、一連のポーズで実行されるクラスタリングアルゴリズムは、それらがどのようなポーズであるか、または類似したものであるかがわからない場合でも、適切な候補です。

そこから、kinectデータの各ポイントの可能な各ポーズの総確率をトレーニングするモデルを作成できます。

私はこれが少しまばらなインタビューであることを知っています。そのクラスは、最先端の優れた概要を提供しますが、一般的な問題は、簡単な答えに凝縮するには少し難しすぎます。(この分野に興味がある場合は、4月に服用することをお勧めします)

于 2013-01-28T22:41:23.663 に答える