強化学習フレームワークでは、報酬とそれが状態にどのように関連しているかについて少し混乱しています。たとえば、Q ラーニングでは、Q テーブルを更新するための次の式があります。
これは、時間 t+1 で環境から報酬が得られることを意味します。アクション a tを適用した後、環境は s t+1と r t+ 1 を与えるということです。
多くの場合、報酬は前の時間ステップに関連付けられています。つまり、上記の式でr tを使用しています。たとえば、Q-learning のウィキペディアのページ ( https://en.wikipedia.org/wiki/Q-learning ) を参照してください。どうしてこれなの?
偶然にも、同じトピックに関するウィキペディアのいくつかのページでは、異なる言語で r t+1 (または予想外に R t+1 ) が使用されています。たとえば、イタリア語と日本語のページを参照してください。