5

私は現在、手話認識アプリケーションに取り組んでいます。ここでは、分類段階として隠れマルコフ モデルを使用したいと考えています。つまり、ジェスチャー/姿勢を分類して、関連する文字または単語を取得します。

私は現在、手を検出している最初の段階を完了しました。現在、次のような機械学習段階で使用できる多くのパラメーター (機能) を取得できます。

  • 手の凸包
  • 凸欠陥
  • 手の重心
  • 回転した楕円/長方形の境界を設定する (例: 回転に関して必要な角度を取得する)
  • 手の輪郭
  • 瞬間(これらが正確に何であるかはわかりません)

これらはすべて openCv を介して実行できます。

私の質問: これらすべての機能を取得したら、「機能抽出」ステージを実行するにはどうすればよいですか? つまり、機械学習アルゴリズム、この場合は HMM が一連の確率を必要とする場合、上記の情報をどのように使用できますか?

私が持っている 1 つのアイデアは、各ジェスチャを一意に識別するような情報を含む特別なデータ構造を作成することですが、機械学習技術にどのようにフィードするのでしょうか? (この場合、隠れマルコフ モデル)

この特定の段階で少なくとも何を探すべきか、または実際に私が抱えている本当の困難が何であるかを示すように私を導くことができる人はいますか?

4

1 に答える 1

5

一連の観測の準備ができたら、それをビタビ アルゴリズムにフィードして、これらの観測を生成した可能性のある最良の状態シーケンスを検出できます。また、Baum-Welch アルゴリズムを使用して、サンプルのデータ セットに対して HMM をトレーニングすることもできます。HMM を使用して動的な手のジェスチャーを認識する簡単な説明である私のブログ投稿を見ることができます(ただし、私は openCV を使用しておらず、手の輪郭をスキャンしていません)。これが、処理と学習の段階についての一般的なアイデアを得るのに役立つことを願っています.

于 2013-04-22T11:52:01.253 に答える