0

強化学習で状態アクションを保存するために Q-Table を使用すると、一部の状態がまったく (またはめったに) 発生せず、状態アクションの値が最大反復までゼロのままになるため、使用する代わりにニューラル ネットワークを使用して Q-Table をオンラインで推定することにします。 Q テーブル。

この種の問題をより正確に推定できるのはどのタイプのニューラル ネットワークですか?また、この解決策は役に立ちますか?

4

1 に答える 1

0

関数の近似として Localy Weighted Regression(LWR) を使用し、テーブルをこの関数に置き換えるだけです

于 2014-01-30T18:43:14.770 に答える