reinforcement-learning - Sutton&Barto の RL book でワトキンスの Q(λ) 学習アルゴリズムを理解する方法は?

Question

Sutton&Barto の RL book (リンク) では、ワトキンスの Q(λ) 学習アルゴリズムが図 7.14 に示されています。 8 行目と 9 行目の (s,a) は現在の (s,a) です。これは正しいですか?

12 行目と 13 行目で a'!=a* の場合、13 行目を実行すると、すべての e(s,a) が 0 に設定されるため、すべての適格性トレースが 0 に設定されている場合の適格性トレースのポイントは何ですか? a'!=a* という状況が非常に頻繁に発生するためです。a'!=a* という状況があまり頻繁に発生しない場合でも、一度発生すると、適格性トレースの意味が完全に失われ、Q は再度更新されません。すべての e(s,a)= 0 の場合、置換トレースを使用する場合、すべての更新で e(s,a) は 0 のままです。

では、これはここでエラーですか？

score 6 · Accepted Answer

適格性トレースの考え方は、適格な状態とアクションのペアのみに信用または非難を与えることです。Sutton & Barto の本には、このアイデアの素晴らしい図解があります: Backward view of eligibility traces

ワトキンの Q(λ) アルゴリズムでは、決定論的な方法でポリシー Q に従った場合 (常に最善のアクションを選択する場合)、実際に訪れた状態とアクションのペアにクレジット/非難を与えたいと考えています。

したがって、質問に対する答えは 5 行目にあります。

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

a' は貪欲なイプシロンが選択されているため、貪欲なステップの代わりに探索的ランダムステップを実行する可能性が (確率イプシロンで) わずかにあります。このような場合、以前に訪問された状態と行動のペアにクレジット/非難を与えることは意味がないため、適格性トレース全体がゼロに設定されます。ランダムな探索ステップの前に訪れた状態と行動のペアは、将来の報酬について信用/非難に値しないため、適格性トレース全体を削除します。その後の時間ステップで、新しい適格性トレースを構築し始めます...

それが役に立ったことを願っています。

score 0 · Accepted Answer

このプロセスを段階的に書いた今、私はそれを理解することができます. a'!=a* の後、すべての e(s,a) のトレースは 0 に設定されますが、e(s',a') は次のステップで再び 1 に設定されます (ここでは 9 行目)。ここで私の理解の詳細を参照してください

reinforcement-learning - Sutton&Barto の RL book でワトキンスの Q(λ) 学習アルゴリズムを理解する方法は?

2 に答える 2

Related

Reference