問題タブ [dqn]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

147 問題

0 投票する

1 に答える

81 参照

artificial-intelligence - 強化学習エージェントのトレーニング中に蓄積されたエピソード報酬の数回の落ち込み

こんにちは、PPO アルゴリズムを使用して制御問題の強化学習エージェントをトレーニングしています。トレーニングプロセス中に各エピソードの累積報酬を追跡しています。トレーニングプロセス中に何度か、蓄積された報酬が急激に低下するのを確認しました。これがなぜ起こっているのか、またはこれを回避する方法を理解することはできません。ニューラルネットワーク層のニューロン数、学習率などを変更するなど、いくつかのハイパーパラメーターを変更してみましたが、それでも一貫して発生していることがわかります。ディップ中に実行されているアクションをデバッグして確認すると、明らかにアクションが非常に悪いため、報酬が減少します。

なぜこれが起こっているのか、またはこれを回避する方法を理解するのを手伝ってくれる人はいますか?

私のトレーニングプロセスのプロットの一部