python - 観察の意味 - OpenAI ジム

Question

CartPole-v0OpenAI Gym( https://gym.openai.com/ )での観察の仕様が知りたいです。

たとえば、次のコードではobservation. 1つの観察は[-0.061586 -0.75893141 0.05793238 1.15547541]、数字が何を意味するのか知りたいというようなものです。EnvironmentsなどなどMountainCar-v0、その他の仕様が知りたいですMsPacman-v0。

https://github.com/openai/gymを読んでみましたが、わかりません。仕様を知る方法を教えてください。

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

( https://gym.openai.com/docsより)

出力は次のとおりです

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

score 4 · Accepted Answer

OpenAI Gym Web サイトの各環境を説明する段落の後に、環境を詳細に説明するリファレンスが常にあります。たとえば、CartPole-v0すべての詳細は次の場所にあります。

[Barto83] AG Barto、RS Sutton、および CW Anderson、「困難な学習制御問題を解決できるニューロン様適応要素」、システム、人間、およびサイバネティックスに関する IEEE トランザクション、1983 年。

その論文では、cart-pole には 4 つの状態変数があることがわかります。

トラック上のカートの位置
垂直に対するポールの角度
カート速度
角度の変化率

したがって、observationは 4 つの状態変数の値を持つ単純なベクトルです。

同様に、の詳細は次のMountainCar-v0場所にあります。

[Moore90]ムーア、ロボット制御のための効率的なメモリベースの学習、博士論文、ケンブリッジ大学、1990。

等々。

python - 観察の意味 - OpenAI ジム

2 に答える 2

Related

Reference