Qラーニングを実装しようとしています。ここからの一般的なアルゴリズムは次のとおりです。
声明では
元の疑似コードの上記のステートメントを、現在の状態/アクションが導くことができるすべての次の状態に対して再帰的に実装し、毎回最大にする必要があることを理解していません
または、アクション-ステート Q-値テーブルから現在のアクションで次のステートの最大値を選択するだけですか?
前もって感謝します。
Qラーニングを実装しようとしています。ここからの一般的なアルゴリズムは次のとおりです。
声明では
元の疑似コードの上記のステートメントを、現在の状態/アクションが導くことができるすべての次の状態に対して再帰的に実装し、毎回最大にする必要があることを理解していません
または、アクション-ステート Q-値テーブルから現在のアクションで次のステートの最大値を選択するだけですか?
前もって感謝します。