machine-learning - 大規模な状態空間と行動空間を備えたモデルベースの強化学習アルゴリズムのポリシーの一般化

Question

自律飛行のために、モデルベースの単一エージェント強化学習アプローチを使用しています。

このプロジェクトでは、シミュレータを使用してトレーニングデータ (状態、アクション、終了状態) を収集し、Locally Weighted Linear RegressionアルゴリズムがMODEL.

はSTATEベクトルによって定義されます:[Pitch , Yaw , Roll , Acceleration]空間内のドローンの位置を定義します。に与えられると、POLICYもう1つの機能があります[WantedTrajectory]

ACTIONもベクトルによって定義されます。[PowerOfMotor1 , PowerOfMotor2 , PowerOfMotor3 , PowerOfMotor4]

はREWARD、取得された軌道の精度に応じて計算されます。開始空間状態、希望する軌道、および終了空間状態が与えられると、実際に取得される軌道が希望する軌道に近づくほど、負の負の報酬が少なくなります。

のアルゴリズムpolicy iterationは次のとおりです。

start from a state S0

loop    

         1) select the best action according to the Policy

         2) use LWLR to find the ending state

         3) calculate reward

         4) update generalized V function



endloop;

このように、実行されるアクションは、必要な軌道 (ユーザーが選択) にも依存し、エージェントは自律的に 4 つのモーターの電力を選択します (必要な軌道を取り、より大きく、負の少ない、報酬を得ようとします)。ポリシーは動的です。更新される値関数に依存するため。

唯一の問題は、POLICYを次のように選択することです (S = Pitch 、 Yaw 、 Roll 、 Acceleration 、 WantedTrajectory ):

π(S) = argmax_a ( V( LWLR(S,a) ) )

(したがって、すべてのアクション間で、この状態から最も大きな値を持つ状態にエージェントを導くアクション) は、アクションスペースが非常に大きいため、計算の面で多くのコストがかかります。

既に一般化された VALUE FUNCTION に応じて POLOCY を一般化する方法はありますか?

score 0 · Accepted Answer

ポリシー勾配を使用したアクター批評家の方法が役立つと思います。

その場合、価値関数に基づく目的関数に基づいて調整されたパラメーター化されたポリシーを使用します。アドバンテージ機能の使用など、さらにいくつかの改善があります。

David Silver が作成した素晴らしいビデオは、役に立つと思われます。

https://www.youtube.com/watch?v=KHZVXao4qXs&index=7&list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

machine-learning - 大規模な状態空間と行動空間を備えたモデルベースの強化学習アルゴリズムのポリシーの一般化

1 に答える 1

Related

Reference