フィードフォワードニューラルネットワークの基本と、バックプロパゲーションアルゴリズムを使用してそれらをトレーニングする方法を知っていますが、強化学習を使用してANNをオンラインでトレーニングするために使用できるアルゴリズムを探しています。
たとえば、カートポールのスイングアップの問題は、ANNで解決したい問題です。その場合、振り子を制御するために何をすべきかわかりません。理想的な位置にどれだけ近いかしかわかりません。私はANNに報酬と罰に基づいて学ばせる必要があります。したがって、教師あり学習はオプションではありません。
もう1つの状況は、フィードバックが遅れ、報酬ではなくゴールと反ゴールに限定されるヘビゲームのようなものです。
山登り法や遺伝的アルゴリズムなど、最初の状況でのアルゴリズムをいくつか考えることができますが、どちらも遅いと思います。これらは2番目のシナリオにも適用できる可能性がありますが、信じられないほど遅く、オンライン学習には役立ちません。
私の質問は単純です:強化学習で人工ニューラルネットワークをトレーニングするための単純なアルゴリズムはありますか?私は主にリアルタイムの報酬状況に興味がありますが、目標ベースの状況のアルゴリズムが利用可能であれば、さらに優れています。