Barto と Sutton による本「Introduction to Reinforcement Learning」では、非定常 RL 問題について次のように述べています。
「事実上非定常である強化学習の問題に遭遇することがよくあります。そのような場合、過去の報酬よりも最近の報酬を重視することが理にかなっています。」 (こちらを参照 - https://webdocs.cs.ualberta.ca/~sutton /book/ebook/node20.html )
私はこれに完全に納得していません。たとえば、迷路の出口を見つけることをタスクとする探索エージェントは、遠い過去に間違った選択をしたため、実際には負ける可能性があります。
簡単な言葉で、最近の報酬をより高く重み付けすることが理にかなっている理由を説明していただけますか?