5

SARSA アルゴリズムの理解に問題があります: http://en.wikipedia.org/wiki/SARSA

特に、Q 値を更新する場合、ガンマとは何ですか? また、s(t+1) と a(t+1) にはどのような値が使用されますか?

誰かが私にこのアルゴリズムを説明できますか?

ありがとう。

4

1 に答える 1

4

ガンマは、アルゴリズムのメモリ量を決定します。0.0 に設定すると、アルゴリズムは価値関数Qをまったく更新しません。1.0 に設定すると、新しいエクスペリエンスには、以前のすべてのエクスペリエンスを組み合わせたのと同じ重みが与えられます。最良の値はその中間にあり、実験的に決定する必要があります。

仕組みは次のとおりです。

  • 最初のステップでは、状態を取得するだけです。s tとして保存するだけです。また、この状態で実行する最適なアクションを値関数で検索しtとして保存します。
  • 以降の各ステップでは、r t+1s t+ 1 を取得します。ここでも、値関数を使用して最適なアクション ( a t+1 ) を見つけます。前のアクションから新しいアクションへの移行の値は、r t+1 +Q(s t+1 ,a t+1 )-Q(s t ,a t )に等しくなります。これを使用して、前のアクションの値Q(s t ,a t t)の長期推定を更新します。最後に、s t+1a t+1s ta tとして保存します。次のステップのために。

実際には、値関数は、各アクションおよびすべての状態に対するこれらの更新値の移動平均にすぎません。

于 2011-05-22T04:17:42.803 に答える