関数近似で Q 学習アルゴリズムを使用する方法について、いくつかの役立つ指示を取得したいと思います。基本的な Q 学習アルゴリズムについては、例を見つけましたが、理解できたと思います。関数近似を使用する場合、問題が発生します。誰かがそれがどのように機能するかの短い例を通して説明してもらえますか?
私が知っていること:
- Q 値にマトリックスを使用する代わりに、機能とパラメーターを使用します。
- フィーチャとパラメータの線形結合で近似を行います。
- パラメータを更新します。
私はこの論文をチェックしました:関数近似によるQ学習
しかし、それを使用するための有用なチュートリアルが見つかりません。
手伝ってくれてありがとう!