問題タブ [dqn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
artificial-intelligence - 強化学習エージェントのトレーニング中に蓄積されたエピソード報酬の数回の落ち込み
こんにちは、PPO アルゴリズムを使用して制御問題の強化学習エージェントをトレーニングしています。トレーニング プロセス中に各エピソードの累積報酬を追跡しています。トレーニング プロセス中に何度か、蓄積された報酬が急激に低下するのを確認しました。これがなぜ起こっているのか、またはこれを回避する方法を理解することはできません。ニューラルネットワーク層のニューロン数、学習率などを変更するなど、いくつかのハイパーパラメーターを変更してみましたが、それでも一貫して発生していることがわかります。ディップ中に実行されているアクションをデバッグして確認すると、明らかにアクションが非常に悪いため、報酬が減少します。
なぜこれが起こっているのか、またはこれを回避する方法を理解するのを手伝ってくれる人はいますか?
私のトレーニングプロセスのプロットの一部
reinforcement-learning - DOUBLE DQNなんて意味ない
2 つのネットワークを使用する理由は、1 つのネットワークを使用してNエピソードごとに 1 回トレーニングできるのに、エピソードごとに 1 回トレーニングし、 Nエピソードごとにターゲット ネットワークを更新することです。文字通り違いはありません!