2

この OpenAI環境は、エージェントに位置と速度のみを提供するため、エージェントは、高い値を持つべき最初の良好な状態 (直立したポール、低速) と、付近の良好な状態 (直立したポール、低速) を区別できません。 end (200 番目のステップ) で、エージェントの恐怖と混乱に対して、環境が差し迫ってシャットダウンするため、実際には期待される報酬が非常に低くなります。

これが一般的な強化アルゴリズムにどの程度影響するのだろうか.

PS

Experience Replay を (非常に単純な) DQN アルゴリズムに実装しましたが、実際には、トレーニングで 150 を超える時間のステップを無視する方がうまくいくようです。ただし、アルゴリズムのパフォーマンスは非常にノイズが多いため、これについてはさらに実験が必要です。

また、問題に関連していると思われるこの環境に出くわしました。安全な (「ペーパー クリップ マキシマイザー」の意味で) AI は、オフにすることに無関心であるべきです。

4

0 に答える 0