Sutton&Barto の RL book (リンク) では、ワトキンスの Q(λ) 学習アルゴリズムが図 7.14 に示されています
。 8 行目と 9 行目の (s,a) は現在の (s,a) です。これは正しいですか?
12 行目と 13 行目で a'!=a* の場合、13 行目を実行すると、すべての e(s,a) が 0 に設定されるため、すべての適格性トレースが 0 に設定されている場合の適格性トレースのポイントは何ですか? a'!=a* という状況が非常に頻繁に発生するためです。a'!=a* という状況があまり頻繁に発生しない場合でも、一度発生すると、適格性トレースの意味が完全に失われ、Q は再度更新されません。すべての e(s,a)= 0 の場合、置換トレースを使用する場合、すべての更新で e(s,a) は 0 のままです。
では、これはここでエラーですか?