1

更新ルール TD(0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
次に、現在のベスト アクション (最適化) またはランダム アクション (エクスプローラー) のいずれかを実行します。

MaxNextQ は、次の状態で取得できる最大 Q です...


しかし、TD(1) では、更新ルールは次のようになると思います。

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

私の質問:
この用語gamma * Reward(t-1)は、私が常に最善を尽くすことを意味しt-1ます.. これは探索を妨げると思います..
誰かヒントをくれませんか?

ありがとう

4

1 に答える 1

2

「適格トレース」の使用について話しているのですね。方程式とアルゴリズムを参照してください。

そこの e_t(s, a)方程式に注目してください。探索ステップを使用する場合、ペナルティは適用されません。

于 2010-05-29T18:20:39.177 に答える