Q学習中にR(s)関数を更新する適切な方法は何ですか?たとえば、エージェントが状態s1に5回アクセスし、報酬[0,0,1,1,0]を受け取ったとします。平均報酬を計算する必要がありますか?たとえば、R(s1)= sum([0,0,1,1,0])/ 5?または、その州で受け取った最近の報酬値に大きな重みを与える移動平均を使用する必要がありますか?私が読んだQ学習の説明のほとんどは、R(s)をある種の定数として扱い、経験が蓄積されるにつれて、この値を時間の経過とともにどのように学習するかをカバーしていないようです。
編集:Q学習のR(s)とマルコフ決定過程のR(s、s')を混同している可能性があります。質問は同じままです。MDPを学習するとき、R(s、s')を更新するための最良の方法は何ですか?