3

Qラーニングを実装しようとしています。ここからの一般的なアルゴリズムは次のとおりです。

ここに画像の説明を入力

声明では

ここに画像の説明を入力

元の疑似コードの上記のステートメントを、現在の状態/アクションが導くことができるすべての次の状態に対して再帰的に実装し、毎回最大にする必要があることを理解していません

または、アクション-ステート Q-値テーブルから現在のアクションで次のステートの最大値を選択するだけですか?

前もって感謝します。

4

1 に答える 1

2

式が示すすべては、ステップの状態アクション値と現在の状態のすべてのアクションの最大t+1値を使用して、ステップで状態アクション値を更新することです。t

于 2014-12-04T11:58:50.603 に答える