この質問はQ学習に関するものです。
次の点を考慮してください。
- ループ(吸収)状態J-JからJに移動するための報酬100(Jは最終状態-IからJに移動することによる報酬も100)
- 1のガンマ値
- アルファ値0.5
JからJへの遷移ですでに100のQ値が得られているとします。新しいQ値は次の式で与えられます。100+0.5(100 + 1(100)-100)ここで、Q(次の可能な状態の最大値)は100です。状態Jでは、可能な最大の次のQ値を取得するために、ループします(したがって、最大の次の可能なQ値は現在の値-100です)。これにより、新しいQ値150が得られます。これを論理的な結論にすると、Jをループするたびに、Q値が50ずつ上昇し、その特定のQ値が収束することはなく、これは私には間違っているように見えます(これは間違っていますか? )(他の値はカバーします)。私はすでにこの実験を何度も行ってきましたが、これについてはまだ確信がありません。できれば上記の点を明確にしてください。私は大学でQ学習を非常にひどく教えられており、1週間半で提出するコースワークがあります。
ありがとう!