1

現在、TD-Gammon の仕組みを理解しようとしていますが、2 つの質問があります。

1)体重の更新について説明している記事を見つけました。3つの部分で構成されています。最後の部分は、w に関する V(s) の微分です。文中では「ランニングサム」と呼ばれています。その値をどのように計算しますか? (出力から非表示レイヤーへの重みの変更のみに関心があり、それ以上の重みの変更には関心がありません)

2) 重みを更新するこの手順を読んだ後、1​​ つの疑問が生じました: 強化学習を使用して状態の目標値を作成し、その値をニューラル ネットワークに与えて、それを返すことを学習させないのはなぜですか?現在の状態の値?重みを直接操作する追加の更新ルールがあるのはなぜですか?

4

1 に答える 1

1

実際には、基本的な通常の二乗和誤差を使用するANNを実装する必要があります。次に、ターゲットネットワーク出力をTDエラー値に置き換えます。E= r + gamma * V(t + 1)-V(t)

そこから、一般的なANNバックプロパゲーションの重み更新ルールを使用できます。

つまり、要するに、あなたの説明は実際にはANNアルゴリズムを介したRLが行うべきことだと思います。状態/アクション値関数を学習するためにANNをトレーニングしています。

于 2013-03-12T13:16:13.557 に答える