強化学習で状態アクションを保存するために Q-Table を使用すると、一部の状態がまったく (またはめったに) 発生せず、状態アクションの値が最大反復までゼロのままになるため、使用する代わりにニューラル ネットワークを使用して Q-Table をオンラインで推定することにします。 Q テーブル。
この種の問題をより正確に推定できるのはどのタイプのニューラル ネットワークですか?また、この解決策は役に立ちますか?
強化学習で状態アクションを保存するために Q-Table を使用すると、一部の状態がまったく (またはめったに) 発生せず、状態アクションの値が最大反復までゼロのままになるため、使用する代わりにニューラル ネットワークを使用して Q-Table をオンラインで推定することにします。 Q テーブル。
この種の問題をより正確に推定できるのはどのタイプのニューラル ネットワークですか?また、この解決策は役に立ちますか?