0

強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))永遠に続くのではないか?Q(s',a')1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか?

4

1 に答える 1