1

固定エピソード長のエピソード タスクで強化学習エージェントをトレーニングしています。エピソードの累積報酬をプロットすることで、トレーニング プロセスを追跡しています。報酬をプロットするためにテンソルボードを使用しています。2,000 万ステップのエージェントをトレーニングしました。したがって、エージェントには十分なトレーニング時間が与えられていると思います。エピソードの累積報酬は、+132 から約 -60 の範囲です。スムージングが 0.999 の私のプロット

ここに画像の説明を入力

エピソードを通して、報酬が収束したことがわかります。しかし、平滑化が 0 のプロットを見ると

ここに画像の説明を入力

報酬の変動が激しい。では、エージェントが収束したかどうかを考慮する必要がありますか? また、トレーニングを重ねても報酬に大きなばらつきがあるのはなぜですか?

ありがとう。

4

0 に答える 0