問題タブ [openai-gym]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
9172 参照

keras - keras-rl / OpenAI GYM でカスタム環境を実装するには?

私は強化学習の完全な初心者であり、この危険な地形を簡単にナビゲートするためのフレームワーク/モジュールを探していました。私の検索では、2 つのモジュール keras-rl と OpenAI GYM に出会いました。

WIKI で共有している例で 2 つの作業を行うことができますが、事前定義された環境が付属しており、独自のカスタム環境をセットアップする方法に関する情報がほとんどまたはまったくありません。

誰かが私にチュートリアルを教えてくれたり、ゲーム以外の環境をセットアップする方法を説明してくれたりしたら本当にありがたいです?

0 投票する
1 に答える
1428 参照

openai-gym - OpenAI ジムの breakout-v0 が「一時停止」する

OpenAI ジム環境でトレーニングしているときに、環境が「停止」することがあります。行の多くのフレームで、ボールが表示されない/スポーンが停止します。

これはジム環境のエラーですか?これはゲーム Breakout-v0 の一部ですか?

また、Breakout-v0 で可能なアクションについても考えていました。私が考え出したこと:

0 - 何もしない/静止しますか?

1 - 何もしない/じっと立っている?

2 - 「力」を右に適用しますか?

3 - 左に「力」をかける?

編集: 私が何を話しているのか疑問に思っている人のために: この gif を参照してください : http://imgur.com/a/pBLGX ...

0 投票する
0 に答える
281 参照

reinforcement-learning - OpenAI Gym CartPole-v0 の 200 ステップ中断はエージェントに不公平ですか?

この OpenAI環境は、エージェントに位置と速度のみを提供するため、エージェントは、高い値を持つべき最初の良好な状態 (直立したポール、低速) と、付近の良好な状態 (直立したポール、低速) を区別できません。 end (200 番目のステップ) で、エージェントの恐怖と混乱に対して、環境が差し迫ってシャットダウンするため、実際には期待される報酬が非常に低くなります。

これが一般的な強化アルゴリズムにどの程度影響するのだろうか.

PS

Experience Replay を (非常に単純な) DQN アルゴリズムに実装しましたが、実際には、トレーニングで 150 を超える時間のステップを無視する方がうまくいくようです。ただし、アルゴリズムのパフォーマンスは非常にノイズが多いため、これについてはさらに実験が必要です。

また、問題に関連していると思われるこの環境に出くわしました。安全な (「ペーパー クリップ マキシマイザー」の意味で) AI は、オフにすることに無関心であるべきです。