reinforcement-learning - Q ラーニングでは、実際に Q 値を取得するにはどうすればよいでしょうか? Q(s,a) は永遠に続きませんか?

翻译自：https://stackoverflow.com/questions/40951613 2016-12-03T19:26:40.410

311 次

0

強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))永遠に続くのではないか？Q(s',a')1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか？

1 に答える 1