SARSA アルゴリズムの理解に問題があります: http://en.wikipedia.org/wiki/SARSA
特に、Q 値を更新する場合、ガンマとは何ですか? また、s(t+1) と a(t+1) にはどのような値が使用されますか?
誰かが私にこのアルゴリズムを説明できますか?
ありがとう。
SARSA アルゴリズムの理解に問題があります: http://en.wikipedia.org/wiki/SARSA
特に、Q 値を更新する場合、ガンマとは何ですか? また、s(t+1) と a(t+1) にはどのような値が使用されますか?
誰かが私にこのアルゴリズムを説明できますか?
ありがとう。
ガンマは、アルゴリズムのメモリ量を決定します。0.0 に設定すると、アルゴリズムは価値関数Qをまったく更新しません。1.0 に設定すると、新しいエクスペリエンスには、以前のすべてのエクスペリエンスを組み合わせたのと同じ重みが与えられます。最良の値はその中間にあり、実験的に決定する必要があります。
仕組みは次のとおりです。
実際には、値関数は、各アクションおよびすべての状態に対するこれらの更新値の移動平均にすぎません。