1

現在、openai 製の「spinningup」を使用しています。スピンアップでは、PPO およびその他の RL アルゴリズムが実装されます。ただし、DDPG、SAC、および TD3 の場合のみ、「action_limit」という名前の変数があります。

私は現在 PPO を使用しており、ロボットは [0, 200.0] の範囲でのみ動作するため、クリップ (下限と上限を与える) アクションも必要です。そのアルゴリズム PPO は、DDPG、SAC、TD3 とは異なり、action_limit を必要としないためでしょうか? または、彼らが PPO に action_limit を配置しなかったのはスピンアップの間違いですか?

または、ここでいくつかの境界を作成する他の賢い方法はありますか?

4

1 に答える 1