reinforcement-learning - q学習における反復と報酬

翻译自：https://stackoverflow.com/questions/40910757 2016-12-01T12:31:08.060

1481 次

おはようございます Q-learning では、エージェントは目標に到達するまで行動を起こします。アルゴリズムは収束するまで何度も実行されます。たとえば、目標は時間シミュレーションの最後まで最大スループットを取得することです。シミュレーション時間は n 個の等しい期間 T に分割され、報酬は時間とともに変化します。したがって、エージェントは各期間の開始時に状態を n 回更新します。この場合、n はステップ数または反復数と見なされますか? また、Q 値の更新は、選択したアクションの実行後または実行前に行われますか (実際の報酬の近似値である報酬関数を使用)? 私の質問に答えていただければ幸いです。

reinforcement-learning - q学習における反復と報酬

1 に答える 1

Related

Reference