OpenAI Gym で、同じ状態の異なるアクションの次の状態を知りたいです。たとえば、環境のダイナミクスがある s_1、s_2 を取得したい:
(s, a_1) -> s_1, (s, a_2) -> s_2
アクションを元に戻したり、環境を変更せずに次の状態を表示したりするメソッドが見つかりません。私が行方不明であることは明らかですか?
それが役立つ場合は、LQR のダイナミクスと報酬を区別し、InvertedPendulum 環境を使用するためにこれを行っています。
OpenAI Gym で、同じ状態の異なるアクションの次の状態を知りたいです。たとえば、環境のダイナミクスがある s_1、s_2 を取得したい:
(s, a_1) -> s_1, (s, a_2) -> s_2
アクションを元に戻したり、環境を変更せずに次の状態を表示したりするメソッドが見つかりません。私が行方不明であることは明らかですか?
それが役立つ場合は、LQR のダイナミクスと報酬を区別し、InvertedPendulum 環境を使用するためにこれを行っています。