強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))
永遠に続くのではないか?Q(s',a')
1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか?
強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))
永遠に続くのではないか?Q(s',a')
1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか?