python-2.7 - 連続アクションスペースで PPO エージェントをデバッグする方法は?

翻译自：https://stackoverflow.com/questions/70253178 2021-12-06T23:24:42.647

37 次

https://keras.io/examples/rl/ppo_cartpole/の Keras モデルの例に従って、研究目的で個人の継続的な環境で PPO エージェントをコーディングしました。ネットは、0 に近いランダムな値で重みを初期化しています。

問題は、私のニューラルネットワークが実際には逆の意味で学習することです。言い換えれば、ネットはパフォーマンスを向上させるために最悪のパフォーマンスを学習しますが、実際には常に最悪です。RL の同様の状況をデバッグするための提案はありますか?

0 に答える 0