algorithm - 線形関数近似による Q 学習

Question

関数近似で Q 学習アルゴリズムを使用する方法について、いくつかの役立つ指示を取得したいと思います。基本的な Q 学習アルゴリズムについては、例を見つけましたが、理解できたと思います。関数近似を使用する場合、問題が発生します。誰かがそれがどのように機能するかの短い例を通して説明してもらえますか?

私が知っていること：

私はこの論文をチェックしました：関数近似によるQ学習

しかし、それを使用するための有用なチュートリアルが見つかりません。

手伝ってくれてありがとう！

score 2 · Accepted Answer

私の見解では、これは手始めに最適なリファレンスの 1 つです。いくつかの疑似コードの例でよく書かれています。あなたの場合、適格性トレースを無視することでアルゴリズムを簡素化できます。

また、私の経験では、ユースケースによっては、Q-Learning がうまく機能しない場合があります (場合によっては、膨大な量の経験データが必要になります)。たとえば、バッチアルゴリズムである Fitted-Q 値を試すことができます。

1 に答える 1