0

https://keras.io/examples/rl/ppo_cartpole/の Keras モデルの例に従って、研究目的で個人の継続的な環境で PPO エージェントをコーディングしました。ネットは、0 に近いランダムな値で重みを初期化しています。

問題は、私のニューラル ネットワークが実際には逆の意味で学習することです。言い換えれば、ネットはパフォーマンスを向上させるために最悪のパフォーマンスを学習しますが、実際には常に最悪です。RL の同様の状況をデバッグするための提案はありますか?

4

0 に答える 0