問題タブ [openai-gym]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 強化学習 - ゲームへの入力がピクセルのみの場合、エージェントへの報酬をどのように決定するか?
私は RL を初めて使用しますが、これまでに行った中で最も優れているのは、openAI ジムの CartPole です。cartPole では、実行されたアクションに応じて API が自動的に報酬を提供します。私が持っているのはピクセルデータだけで、特定のアクションの報酬を伝えることができる「魔法の関数」がない場合、どのように報酬を決定することになっていますか。
たとえば、GTA San Andreas で自動運転ボットを作りたいとします。私がアクセスできる入力は生のピクセルです。特定のアクションに対する報酬をどのように計算すればよいですか?
environment - Roboschool Half-Cheetah の環境の説明
ロボスクールのハーフチーターについて質問です。
Half-Cheetah の観測空間は 26 であることがわかります。各値の意味を誰か教えてもらえますか? - 数えたのは 18 だけです (また、すべてのタイムステップで値の一部が 0 のままであるように見えます)。
roboschool/mujoco_assets の下の half_cheetah.xml には、次のコメントがあります。
チーターモデル
状態空間には、このファイルで定義されている順序でジョイントが取り込まれます。アクチュエータは関節でも動作します。
ここに示されている順序が、観測マトリックスに表示される順序と同じかどうか確認していただけますか? もしそうなら、常に 0 である値を考慮に入れる必要がありますか?
ありがとうございました。
python-3.x - OpenAI Gym で "Env not found" エラーを解決するには?
私はジムのバージョン「0.9.7」、および mujoco_py バージョン 1.50.1.41、Python 3.6.1 |Anaconda 4.4.0 を Mac にインストールして使用しています。
しようとすると:
次のエラーが表示されます。
オンラインで解決策を探してみましたが、成功しませんでした。