自律飛行のために、モデルベースの単一エージェント強化学習アプローチを使用しています。
このプロジェクトでは、シミュレータを使用してトレーニング データ (状態、アクション、終了状態) を収集し、Locally Weighted Linear Regression
アルゴリズムがMODEL
.
はSTATE
ベクトルによって定義されます:[Pitch , Yaw , Roll , Acceleration]
空間内のドローンの位置を定義します。に与えられると、POLICY
もう1つの機能があります[WantedTrajectory]
ACTION
もベクトルによって定義されます。[PowerOfMotor1 , PowerOfMotor2 , PowerOfMotor3 , PowerOfMotor4]
はREWARD
、取得された軌道の精度に応じて計算されます。開始空間状態 、希望する軌道、および終了空間状態が与えられると、実際に取得される軌道が希望する軌道に近づくほど、負の負の報酬が少なくなります。
のアルゴリズムpolicy iteration
は次のとおりです。
start from a state S0
loop
1) select the best action according to the Policy
2) use LWLR to find the ending state
3) calculate reward
4) update generalized V function
endloop;
このように、実行されるアクションは、必要な軌道 (ユーザーが選択) にも依存し、エージェントは自律的に 4 つのモーターの電力を選択します (必要な軌道を取り、より大きく、負の少ない、報酬を得ようとします)。ポリシーは動的です。更新される値関数に依存するため。
唯一の問題は、POLICY
を次のように選択することです (S = Pitch 、 Yaw 、 Roll 、 Acceleration 、 WantedTrajectory ):
π(S) = argmax_a ( V( LWLR(S,a) ) )
(したがって、すべてのアクション間で、この状態から最も大きな値を持つ状態にエージェントを導くアクション) は、アクション スペースが非常に大きいため、計算の面で多くのコストがかかります。
既に一般化された VALUE FUNCTION に応じて POLOCY を一般化する方法はありますか?