reinforcement-learning - マルコフ決定過程におけるモデリングアクションの使用制限

翻译自：https://stackoverflow.com/questions/66740689 2021-03-22T05:19:25.527

27 次

特定の数の状態とアクションを持つマルコフ決定プロセスがあります。どの状態からでも 1 回だけ使用でき、一度使用すると再使用できないアクションをモデルに組み込みたいと考えています。状態図でこのアクションをモデル化するにはどうすればよいですか? 私は別の状態を持ち、報酬に -inf を使用することを考えましたが、これらのどれもうまくいかないようです. ありがとう！

reinforcement-learning - マルコフ決定過程におけるモデリングアクションの使用制限

1 に答える 1

Related

Reference