reinforcement-learning - Qラーニングにおける探索と活用

Question

Q 学習アルゴリズムでは、アクションの選択は現在の状態と Q 行列の値に依存します。これらの Q 値が探索段階でのみ更新されるのか、それとも活用段階でも変化するのかを知りたいです。

score 2 · Accepted Answer

たとえば、Sutton & Barto bookから Q 学習アルゴリズムコードを読んだ場合:

選択したアクションが探索的かどうかに関係なく、Q 値が常に更新されることは明らかです。

「 Qから派生したポリシーを使用してsからaを選択する(例: epsilon-greedy)」という行は、アクションが探索的である場合があることを意味することに注意してください。

1 に答える 1