2

Barto と Sutton による本「Introduction to Reinforcement Learning」では、非定常 RL 問題について次のように述べています。

「事実上非定常である強化学習の問題に遭遇することがよくあります。そのような場合、過去の報酬よりも最近の報酬を重視することが理にかなっています。」 (こちらを参照 - https://webdocs.cs.ualberta.ca/~sutton /book/ebook/node20.html )
私はこれに完全に納得していません。たとえば、迷路の出口を見つけることをタスクとする探索エージェントは、遠い過去に間違った選択をしたため、実際には負ける可能性があります。
簡単な言葉で、最近の報酬をより高く重み付けすることが理にかなっている理由を説明していただけますか?

4

2 に答える 2

4

問題が非定常的である場合、過去の経験はますます時代遅れになっているため、重みを低くする必要があります。そうすれば、探検家が遠い過去に間違いを犯したとしても、その間違いはより最近の経験によって上書きされます。

于 2016-05-08T13:03:07.817 に答える
3

このテキストは、非定常問題について明示的に言及しています。このような問題では、MDP の特性が変化します。たとえば、環境が変化する可能性があるため、遷移行列または報酬関数が異なる場合があります。この場合、過去に獲得した報酬は重要でなくなる可能性があります。

あなたの例では、迷路が決して変わらないため、MDP は静止しているため、ステートメントは正しいです。(たとえば) 迷路の出口が何らかの法則 (あなたが知らない) に従って変化する場合、最近の報酬をより重視することは理にかなっています (たとえば、報酬がエージェントの位置から目的地までのマンハッタン距離である場合)。出口)。

一般に、非定常 MDP の処理は非常に複雑です。これは、通常、特性がどのように変化するかがわからないためです (上記の例では、出口位置がどのように変化するかがわからない)。反対に、環境がどのように変化するかを決定する法則を知っている場合は、それを MDP モデルに含める必要があります。

于 2016-05-08T13:06:14.857 に答える