python - env.step で False を返して True にすることはできますか? （ジム）

Question

群れ環境のリセット条件（gym-flockから）を理解しようとしているときに、この質問を思いつきました.「Falseを返す」とTrueを返すことはできますか??

コアコードは次のとおりです。

1: https://github.com/katetolstaya/multiagent_gnn_policies#available-algorithmsの test_model.py

def test(args, actor_path, render=True):
# initialize gym env
env_name = args.get('env')
env = gym.make(env_name)
if isinstance(env.env, gym_flock.envs.FlockingRelativeEnv):
    env.env.params_from_cfg(args)

# use seed
seed = args.getint('seed')
env.seed(seed)
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)

# initialize params tuple
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
learner = DAGGER(device, args)
n_test_episodes = args.getint('n_test_episodes')
learner.load_model(actor_path, device)

**for _ in range(n_test_episodes):
    episode_reward = 0
    state = MultiAgentStateWithDelay(device, args, env.reset(), prev_state=None)
    done = False
    while not done:
        action = learner.select_action(state)
        next_state, reward, done, _ = env.step(action.cpu().numpy())
        next_state = MultiAgentStateWithDelay(device, args, next_state, prev_state=state)
        episode_reward += reward
        state = next_state
        if render:
            env.render()
    print(episode_reward)
env.close()**

2: ジム環境コード: https://github.com/katetolstaya/gym-flock/tree/stable/gym_flock/envs/flockingの flocking_relative.py

    def step(self, u):

    #u = np.reshape(u, (-1, 2))
    assert u.shape == (self.n_agents, self.nu)
    #u = np.clip(u, a_min=-self.max_accel, a_max=self.max_accel)
    self.u = u * self.action_scalar

    # x position
    self.x[:, 0] = self.x[:, 0] + self.x[:, 2] * self.dt + self.u[:, 0] * self.dt * self.dt * 0.5
    # y position
    self.x[:, 1] = self.x[:, 1] + self.x[:, 3] * self.dt + self.u[:, 1] * self.dt * self.dt * 0.5
    # x velocity
    self.x[:, 2] = self.x[:, 2] + self.u[:, 0] * self.dt
    # y velocity
    self.x[:, 3] = self.x[:, 3] + self.u[:, 1] * self.dt

    self.compute_helpers()

    return (self.state_values, self.state_network), self.instant_cost(), **False**, {}

test_model.py の while ループが env を壊してリセットするためには、ある時点で done を True にする必要があります。ただし、env.step(コードパート 2) のコードは、done の代わりに常に False を返します。

env.step が常に False を返す場合、このループはどのように壊れますか? このコードが正常に機能することをテストして確認しましたが、その方法を理解するのに苦労しています。

RLとジムの経験者である私を助けてくださいよろしくお願いします

score 0 · Accepted Answer

https://github.com/katetolstaya/gym-flock/blob/stable/gym_flock/__init__.py#L65

上記のファイルで：

register(
    id='FlockingLeader-v0',
    entry_point='gym_flock.envs.flocking:FlockingLeaderEnv',
    max_episode_steps=200,
)

ステップ数が max_episode_steps になると、ステップの False は True を返します

python - env.step で False を返して True にすることはできますか? （ジム）

1 に答える 1

Related

Reference