reinforcement-learning - openai のスピンアップでの RL PPO アクションスペースクリッピング

翻译自：https://stackoverflow.com/questions/67070862 2021-04-13T07:59:45.823

208 次

現在、openai 製の「spinningup」を使用しています。スピンアップでは、PPO およびその他の RL アルゴリズムが実装されます。ただし、DDPG、SAC、および TD3 の場合のみ、「action_limit」という名前の変数があります。

私は現在 PPO を使用しており、ロボットは [0, 200.0] の範囲でのみ動作するため、クリップ (下限と上限を与える) アクションも必要です。そのアルゴリズム PPO は、DDPG、SAC、TD3 とは異なり、action_limit を必要としないためでしょうか? または、彼らが PPO に action_limit を配置しなかったのはスピンアップの間違いですか?

または、ここでいくつかの境界を作成する他の賢い方法はありますか?

reinforcement-learning - openai のスピンアップでの RL PPO アクション スペース クリッピング

1 に答える 1

Related

Reference

reinforcement-learning - openai のスピンアップでの RL PPO アクションスペースクリッピング