3

状態空間として Kinect カメラからのジョイント位置を使用していますが、SARSA または Qlearning にフィードするには大きすぎる (1 秒あたり 25 ジョイント x 30) と思います。

現在、教師あり学習を使用してユーザーの動きを特定のジェスチャーに関連付ける Kinect Gesture Builder プログラムを使用しています。しかし、それには監視されたトレーニングが必要であり、私はそこから離れたい. アルゴリズムは、私が自分でデータを分類するときに、関節間の特定の関連性を検出する可能性があると考えています (たとえば、手を挙げて、左に一歩、右に一歩)。

そのデータをディープ ニューラル ネットワークにフィードし、それを強化学習アルゴリズムに渡すと、より良い結果が得られると思います。

最近、これに関する論文がありました。https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Accord.net にはディープ ニューラル ネットワークと RL の両方があることは知っていますが、それらを組み合わせた人はいますか? 洞察はありますか?

4

1 に答える 1

0

あなたの質問とコメントから正しく理解できれば、ビジュアル入力 (カメラからの生のピクセル) を使用して個別のアクションを実行するエージェントが必要です。これは、あなたが言及した論文を拡張して、DeepMind が最近行ったこととまったく同じように見えます。これを見てください。これは、Atari ゲームをプレイするための新しい (そしてより優れた) バージョンです。また、こちらからダウンロードできる公式の実装も提供しています。かなりうまく機能する Neon の実装さえあります。

最後に、継続的なアクションを使用する場合は、この非常に最近の論文に興味があるかもしれません。

要約すると: はい、誰かが DNN + RL を組み合わせました。それは機能します。未加工のカメラ データを使用してエージェントを RL でトレーニングする場合、これは間違いなく 1 つの方法です:)

于 2015-12-17T22:49:58.690 に答える