Q 学習アルゴリズムでは、アクションの選択は現在の状態と Q 行列の値に依存します。これらの Q 値が探索段階でのみ更新されるのか、それとも活用段階でも変化するのかを知りたいです。
1 に答える
2
たとえば、Sutton & Barto bookから Q 学習アルゴリズム コードを読んだ場合:
選択したアクションが探索的かどうかに関係なく、Q 値が常に更新されることは明らかです。
「 Qから派生したポリシーを使用してsからaを選択する(例: epsilon-greedy)」という行は、アクションが探索的である場合があることを意味することに注意してください。
于 2017-01-06T15:28:50.167 に答える