0

関数近似で Q 学習アルゴリズムを使用する方法について、いくつかの役立つ指示を取得したいと思います。基本的な Q 学習アルゴリズムについては、例を見つけましたが、理解できたと思います。関数近似を使用する場合、問題が発生します。誰かがそれがどのように機能するかの短い例を通して説明してもらえますか?

私が知っていること:

  1. Q 値にマトリックスを使用する代わりに、機能とパラメーターを使用します。
  2. フィーチャとパラメータの線形結合で近似を行います。
  3. パラメータを更新します。

私はこの論文をチェックしました:関数近似によるQ学習

しかし、それを使用するための有用なチュートリアルが見つかりません。

手伝ってくれてありがとう!

4

1 に答える 1

2

私の見解では、これは手始めに最適なリファレンスの 1 つです。いくつかの疑似コードの例でよく書かれています。あなたの場合、適格性トレースを無視することでアルゴリズムを簡素化できます。

また、私の経験では、ユース ケースによっては、Q-Learning がうまく機能しない場合があります (場合によっては、膨大な量の経験データが必要になります)。たとえば、バッチ アルゴリズムである Fitted-Q 値を試すことができます。

于 2016-04-08T12:26:27.527 に答える