36

Q学習は強化学習における値の反復とどう違うのですか?

Q-learning はモデルフリーであり、トレーニング サンプルは transition であることを知ってい(s, a, s', r)ます。しかし、Q 学習ではすべての遷移に対する遷移と報酬がわかっているため、状態とアクションのペアに対する報酬、および状態からのすべてのアクションに対する遷移 (be確率論的または決定論的)?違いがわかりません。

4

3 に答える 3