artificial-intelligence - 強化学習エージェントのトレーニング中に蓄積されたエピソード報酬の数回の落ち込み

翻译自：https://stackoverflow.com/questions/59032466 2019-11-25T13:01:14.217

81 次

こんにちは、PPO アルゴリズムを使用して制御問題の強化学習エージェントをトレーニングしています。トレーニングプロセス中に各エピソードの累積報酬を追跡しています。トレーニングプロセス中に何度か、蓄積された報酬が急激に低下するのを確認しました。これがなぜ起こっているのか、またはこれを回避する方法を理解することはできません。ニューラルネットワーク層のニューロン数、学習率などを変更するなど、いくつかのハイパーパラメーターを変更してみましたが、それでも一貫して発生していることがわかります。ディップ中に実行されているアクションをデバッグして確認すると、明らかにアクションが非常に悪いため、報酬が減少します。

なぜこれが起こっているのか、またはこれを回避する方法を理解するのを手伝ってくれる人はいますか?

私のトレーニングプロセスのプロットの一部

artificial-intelligence - 強化学習エージェントのトレーニング中に蓄積されたエピソード報酬の数回の落ち込み

1 に答える 1

Related

Reference