2

GTD(λ) のすべての形式では、θ といくつかの重みベクトル w を使用して、関数近似の観点からそれを定義しているようです。

線形関数近似の収束特性から勾配法の必要性が広まっていることは理解していますが、重要度のサンプリングには GTD を利用したいと考えています。

関数近似なしで GTD を利用することは可能ですか? もしそうなら、更新方程式はどのように形式化されていますか?

4

1 に答える 1

2

「関数近似なし」というのは、価値関数 V を表として表現することを意味していると理解しています。その場合、V の表形式の表現は、関数の近似値と見なすこともできます。

たとえば、近似値関数を次のように定義するとします。

ラテックス方程式

次に、表形式の表現を使用すると、状態と同じ数の特徴があり、特定の状態 s の特徴ベクトルは、s を除くすべての状態でゼロ (1 に等しい) であり、パラメーター ベクトル theta は各状態の値を格納します。 . したがって、GTD やその他のアルゴリズムは、表形式で変更することなく使用できます。

于 2016-05-04T11:49:20.633 に答える