0

こんにちは、PPO アルゴリズムを使用して制御問題の強化学習エージェントをトレーニングしています。トレーニング プロセス中に各エピソードの累積報酬を追跡しています。トレーニング プロセス中に何度か、蓄積された報酬が急激に低下するのを確認しました。これがなぜ起こっているのか、またはこれを回避する方法を理解することはできません。ニューラルネットワーク層のニューロン数、学習率などを変更するなど、いくつかのハイパーパラメーターを変更してみましたが、それでも一貫して発生していることがわかります。ディップ中に実行されているアクションをデバッグして確認すると、明らかにアクションが非常に悪いため、報酬が減少します。

なぜこれが起こっているのか、またはこれを回避する方法を理解するのを手伝ってくれる人はいますか?

私のトレーニングプロセスのプロットの一部

ここに画像の説明を入力

ここに画像の説明を入力

ここに画像の説明を入力

4

1 に答える 1