1

Q-learning で ϵ-greedy ポリシーの行動選択ポリシーを実装したいと考えています。ここで多くの人が使ってきたのは、探索速度を下げるための式に従って、

ɛ = e^(-エン)

n = エージェントの年齢

E = 利用パラメータ

しかし、この「n」が何を意味するのかよくわかりません。特定の状態とアクションのペアへの訪問回数ですか、それとも反復回数ですか?

どうもありがとう

4

1 に答える 1

2

あなたの質問にはいくつかの有効な答えがあります。理論的な観点から、収束を達成するために、Q 学習では、すべての状態とアクションのペアが (漸近的に) 無限に頻繁に訪問される必要があります。

前の状態は、さまざまな方法で達成できます。私の意見では、n単純にタイム ステップの数、つまりエージェントが環境に対して実行したインタラクションの数として解釈する方が一般的です [eg, Busoniu, 2010, Chapter 2 ]。

ただし、場合によっては、探索の速度が州ごとに異なる可能性があるためn 、エージェントがその州を訪れた回数になりますs[eg, Powell, 2011, chapter 12 ]。

両方の解釈は等しく有効であり、(他の条件と共に) Q 学習の漸近収束を保証します。どのアプローチを使用するのが良いか、または別のアプローチを使用する方が良い場合は、特定の問題によって異なりますE

于 2017-02-20T09:23:06.090 に答える