問題タブ [openai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
reinforcement-learning - openai のスピンアップでの RL PPO アクション スペース クリッピング
現在、openai 製の「spinningup」を使用しています。スピンアップでは、PPO およびその他の RL アルゴリズムが実装されます。ただし、DDPG、SAC、および TD3 の場合のみ、「action_limit」という名前の変数があります。
私は現在 PPO を使用しており、ロボットは [0, 200.0] の範囲でのみ動作するため、クリップ (下限と上限を与える) アクションも必要です。そのアルゴリズム PPO は、DDPG、SAC、TD3 とは異なり、action_limit を必要としないためでしょうか? または、彼らが PPO に action_limit を配置しなかったのはスピンアップの間違いですか?
または、ここでいくつかの境界を作成する他の賢い方法はありますか?
openai-gym - 安全体育館シミュレーション用の動画を保存することはできますか?
wrappers.Monitor を使用してセーフティ ジム環境で動作するエージェントのビデオを録画しようとしていますが、ジムで使用できますが、json ファイルしか保存できません。
安全ジムについては、ウェブ上で何も見つかりません。他の解決策を知っている人はいますか?
pytorch - OpenAI ジュークボックスのアップサンプラーをトレーニングすると、しばらくすると損失値がおかしくなります
OpenAI Jukebox を使用してアップサンプラーをトレーニングすると、最初のエポックの終わり (約 2 日後) に「バックワード オーバーフロー」メッセージがさらに表示され、最終的に損失値が 20 跳ね上がりました。何が問題なのですか? 同じデータを使用した VQVAE トレーニングは問題なく機能しました。