5

一連の t イメージ フレームの動きを分類するための隠れマルコフ モデルについて学習しています。

各フレームから m 次元の特徴があるとします。次に、それをシンボルにクラスター化します(観測可能なシンボル用)。そして、k 個のクラスに対して k 個の異なる HMM モデルを作成します。

次に、予測を最適化するために各モデルの隠れ状態の数を決定するにはどうすればよいですか?

ところで、私のアプローチは正しいですか?使い方を誤解している場合は、訂正してください:)

ありがとう :)

4

1 に答える 1

8

「私のアプローチはすでに正しいですか?」

あなたの現在のアプローチは正しいです。私は数週間前に同じことをし、同じ質問をしました。ジェスチャ認識ツールを作成しました。

認識したいクラスが k 個あると言うので、そうです、k 個の HMM をトレーニングします。HMM ごとにフォワード アルゴリズムを実行P(HMM|observation)し、隠れマルコフ モデルごとに受信します (または、ビタビ復号化も可能です)。次に、確率が最も高いものを選択します。

m 次元の特徴ベクトルを 1 つの観測シンボルと見なすことも正しいです。ベクトルがどのように見えるかに応じて、連続隠れマルコフ モデルまたは離散隠れマルコフ モデルを使用することができます。離散的なものを使用することは、多くの場合、トレーニング データがほとんどなくても簡単にトレーニングできます。したがって、特徴ベクトル空間が連続している場合は、離散化を検討してすべての値を離散化することをお勧めします (たとえば、均一なクラスを介して)。離散性に関する問題は次のとおりです。観測値のクラスはいくつありますか?

「最適な予測を得るために各モデルの隠れ状態の数を決定する方法は?」

ただし、隠れ状態の数に関する実際の質問には完全にはお答えできません。私が他の分野で教えられたことから、それは多くのベンチマークとテストのようです。たとえば、音声認識では、音素 (人間の音) ごとに 3 つの HMM 状態を使用します。これは、音が最初、中間、最後で異なるように聞こえるためです。そして、それぞれの異なる音素が 1 つのトリプルを取得します。しかし、それはもちろんエンジニアリングでした。

私自身のアプリケーションでは、次のように考えました。ジェスチャーを定義し、それを方向に関連付けたいと考えました。のようにopen_firefox = [UP, RIGHT]。そこで、4 つの方向すべてに 4 つの隠れ状態を使用することにしました。状態の最適な数を見つけることは、エンジニアリングとさまざまなことを試すことに関する多くのことだと思います。

于 2013-07-11T09:16:19.377 に答える