0

Q 学習を使用して CatPole-v0 をトレーニングしようとしています。経験を積んでリプレイ バッファを更新しようとすると、次のエラーが発生します。

ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)'

関連するコード スニペットは次のとおりです。

def update_replay_buffer(replay_buffer, state, action, reward, next_state, done, action_dim):
    # append to buffer
    experience = (state, action, reward, next_state, done)
    replay_buffer.append(experience)
    # Ensure replay_buffer doesn't grow larger than REPLAY_SIZE
    if len(replay_buffer) > REPLAY_SIZE:
        replay_buffer.pop(0)
    return None

フィードされるプレースホルダーは

action_in = tf.placeholder("float", [None, action_dim])

このエラーを解決するために action_dim を使用する方法を明確にすることはできますか?

4

1 に答える 1