おはようございます Q-learning では、エージェントは目標に到達するまで行動を起こします。アルゴリズムは収束するまで何度も実行されます。たとえば、目標は時間シミュレーションの最後まで最大スループットを取得することです。シミュレーション時間は n 個の等しい期間 T に分割され、報酬は時間とともに変化します。したがって、エージェントは各期間の開始時に状態を n 回更新します。この場合、n はステップ数または反復数と見なされますか? また、Q 値の更新は、選択したアクションの実行後または実行前に行われますか (実際の報酬の近似値である報酬関数を使用)? 私の質問に答えていただければ幸いです。