Q学習は強化学習における値の反復とどう違うのですか?
Q-learning はモデルフリーであり、トレーニング サンプルは transition であることを知ってい(s, a, s', r)
ます。しかし、Q 学習ではすべての遷移に対する遷移と報酬がわかっているため、状態とアクションのペアに対する報酬、および状態からのすべてのアクションに対する遷移 (be確率論的または決定論的)?違いがわかりません。
Q学習は強化学習における値の反復とどう違うのですか?
Q-learning はモデルフリーであり、トレーニング サンプルは transition であることを知ってい(s, a, s', r)
ます。しかし、Q 学習ではすべての遷移に対する遷移と報酬がわかっているため、状態とアクションのペアに対する報酬、および状態からのすべてのアクションに対する遷移 (be確率論的または決定論的)?違いがわかりません。