Q 学習を使用して CatPole-v0 をトレーニングしようとしています。経験を積んでリプレイ バッファを更新しようとすると、次のエラーが発生します。
ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)'
関連するコード スニペットは次のとおりです。
def update_replay_buffer(replay_buffer, state, action, reward, next_state, done, action_dim):
# append to buffer
experience = (state, action, reward, next_state, done)
replay_buffer.append(experience)
# Ensure replay_buffer doesn't grow larger than REPLAY_SIZE
if len(replay_buffer) > REPLAY_SIZE:
replay_buffer.pop(0)
return None
フィードされるプレースホルダーは
action_in = tf.placeholder("float", [None, action_dim])
このエラーを解決するために action_dim を使用する方法を明確にすることはできますか?