1

Silver et al (2012) "Temporal-Difference Search in Computer Go"を読んで、適格性トレース アルゴリズムの更新順序を理解しようとしています。この論文のアルゴリズム 1 と 2 では、適格性トレースを更新する前に重みが更新されます。この順序は正しいのだろうか(アルゴリズム1の11行目と12行目、アルゴリズム2の12行目と13行目)。の極端なケースを考えるとlambda=0、パラメーターは初期状態とアクションのペアで更新されません (eはまだ 0 であるため)。したがって、順序が逆になる可能性があるとは思えません。

誰かがポイントを明確にすることができますか?

この論文は強化学習領域を学ぶ上で非常に参考になると思うので、この論文を詳細に理解したいと思います。

この質問をするのに適したプラットフォームがあれば、それも教えてください。

ここに画像の説明を入力 ここに画像の説明を入力

4

1 に答える 1