私は、倒立振子の問題をモデル化し、強化学習アルゴリズム、特に Q-Learning で解決するサイド プロジェクトに取り組んでいます。私はすでに、グリッドの世界向けの単純な MDP ソルバーを設計しました。簡単なものです。
しかし、研究論文を何日も精査した後、これを行う方法を理解するのに苦労しています. 問題を表現するためのフレームワークを構築する方法については何も説明されていません。
問題をモデル化するとき、標準のマルコフ決定プロセスを使用できますか? それともPOMDPでなければなりませんか?
各状態で何を表すか (つまり、どの状態情報がエージェントに渡されるか)? 座標、速度、振り子の角度など?
エージェントはどのようなアクションを実行できますか? + または - x 方向の速度の連続範囲ですか?
これに関するアドバイスは大歓迎です。