1

特定の数の状態とアクションを持つマルコフ決定プロセスがあります。どの状態からでも 1 回だけ使用でき、一度使用すると再使用できないアクションをモデルに組み込みたいと考えています。状態図でこのアクションをモデル化するにはどうすればよいですか? 私は別の状態を持ち、報酬に -inf を使用することを考えましたが、これらのどれもうまくいかないようです. ありがとう!

4

1 に答える 1