更新ルール TD(0) Q-Learning:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
次に、現在のベスト アクション (最適化) またはランダム アクション (エクスプローラー) のいずれかを実行します。
MaxNextQ は、次の状態で取得できる最大 Q です...
しかし、TD(1) では、更新ルールは次のようになると思います。
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
私の質問:
この用語gamma * Reward(t-1)
は、私が常に最善を尽くすことを意味しt-1
ます.. これは探索を妨げると思います..
誰かヒントをくれませんか?
ありがとう