問題タブ [openai]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

87 問題

0 投票する

1 に答える

208 参照

reinforcement-learning - openai のスピンアップでの RL PPO アクションスペースクリッピング

現在、openai 製の「spinningup」を使用しています。スピンアップでは、PPO およびその他の RL アルゴリズムが実装されます。ただし、DDPG、SAC、および TD3 の場合のみ、「action_limit」という名前の変数があります。

私は現在 PPO を使用しており、ロボットは [0, 200.0] の範囲でのみ動作するため、クリップ (下限と上限を与える) アクションも必要です。そのアルゴリズム PPO は、DDPG、SAC、TD3 とは異なり、action_limit を必要としないためでしょうか? または、彼らが PPO に action_limit を配置しなかったのはスピンアップの間違いですか?

または、ここでいくつかの境界を作成する他の賢い方法はありますか?

2021-04-13T07:59:45.823

0 投票する

0 に答える

52 参照

openai-gym - 安全体育館シミュレーション用の動画を保存することはできますか?

wrappers.Monitor を使用してセーフティジム環境で動作するエージェントのビデオを録画しようとしていますが、ジムで使用できますが、json ファイルしか保存できません。

安全ジムについては、ウェブ上で何も見つかりません。他の解決策を知っている人はいますか？

openai-gym openai

2021-04-22T12:47:53.657

0 投票する

0 に答える

31 参照

pytorch - OpenAI ジュークボックスのアップサンプラーをトレーニングすると、しばらくすると損失値がおかしくなります

OpenAI Jukebox を使用してアップサンプラーをトレーニングすると、最初のエポックの終わり (約 2 日後) に「バックワードオーバーフロー」メッセージがさらに表示され、最終的に損失値が 20 跳ね上がりました。何が問題なのですか? 同じデータを使用した VQVAE トレーニングは問題なく機能しました。

pytorch openai

2021-05-20T09:21:21.357

1 2 3 4 5 6 7 8 9 10

問題タブ [openai]

reinforcement-learning - openai のスピンアップでの RL PPO アクション スペース クリッピング

openai-gym - 安全体育館シミュレーション用の動画を保存することはできますか?

pytorch - OpenAI ジュークボックスのアップサンプラーをトレーニングすると、しばらくすると損失値がおかしくなります

Reference

reinforcement-learning - openai のスピンアップでの RL PPO アクションスペースクリッピング