私の質問は、割引されていない継続的な (非エピソード的な) 問題の強化学習で SARSA アルゴリズムを使用することについてです(そのような問題に使用できますか?)
私は Sutton と Barto の教科書を研究しており、割引されていない問題に使用できるように Q 学習アルゴリズムを変更する方法を示しています。彼らは、6.7 章で、新しいアルゴリズム (割引されていない問題の場合) を R 学習と呼んでいます。基本的に、R 学習では、反復ごとの Q(s,a) の更新規則は次のとおりです。
Q(s,a) = Q(s,a) + アルファ * [r - ロー + max_a{Q(s',a)} - Q(s,a)]
ここで、状態 s で貪欲なアクションが選択された場合にのみ、各反復で rho が更新されます。rho の更新ルールは次のとおりです。
ロー = ロー + ベータ * [r - ロー + max_a{Q(s',a)} - max_a{Q(s,a)}]
(ここで、alpha と beta は学習パラメーターです。) さて、私の質問は、Q 学習ではなく SARSA に関するものです。Q 学習が平均報酬問題に使用されるように変更されたのと同じように、SARSA アルゴリズムを平均報酬 (割引なし) 問題に適したものに変更したいと考えています (これが可能かどうかはわかりません)。 . ただし、文献では、平均報酬問題に対してSARSAをどのように修正する必要があるかについての正確な説明を見つけることができません。
これは、割引されていない問題で SARSA をどのように使用すべきかについての私の推測です。更新ルールは次のようにする必要があると思います。
Q(s,a) = Q(s,a) + アルファ * [r - ロー + Q(s',a') - Q(s,a)],
ここで、a' は状態 s で実際に選択されたアクションです。これはかなり明白なようです。しかし、どのように rho を更新すればよいのでしょうか? 私の推測では、SARSA はポリシーに準拠したアルゴリズムであるため、s で貪欲なアクションが選択されているかどうかに関係なく、反復ごとに常に rho を更新する必要があり、更新ルールは単純に次のようにする必要があります。
ロー = ロー + ベータ * [r - ロー + Q(s',a') - Q(s,a)].
これが正しいかどうか誰か教えてもらえますか?それとも、状態 s および s' での最適なアクションに基づいて、rho を更新する必要がありますか?