サイズ (nxn) のグリッドに Q 学習を実装し、中央に 100 の単一の報酬を設定しました。エージェントは、1000 エポックの間、次のエージェンシーによって目標に到達することを学習します。エージェントは、0.8 の確率で状態アクション値が最も高い動きを選択し、0.2 の確率でランダムな動きを選択します。移動後、Q 学習ルールによって状態アクション値が更新されます。
ここで、次の実験を行いました: ゴールに隣接するすべてのフィールドは、一番下の隣を除いて -100 の報酬を得ました。1000 エポックを学習した後、エージェントは明らかに上に行くことを避け、最も頻繁に下からゴールに到達します。
学習後、下隣の報酬を -100 に設定し、上隣の報酬を 0 に戻し、状態アクション値マップに固執しながら 1000 エポックの学習を再度開始します。それは実際には恐ろしいです!エージェントがゴールを見つけるのに非常に時間がかかります (9x9 グリッドで最大 3 分)。パスを確認した後、エージェントが (0,0)->(1,0)->(0,0)->(1,0) のような 2 つの状態の間を行き来するのに多くの時間を費やしていることがわかりました...
この振る舞いに意味があるかどうか、私には想像しがたいです。誰かがこのような状況を経験したことがありますか?