私の理解では、これらの状態とアクションのペアを推定するために、Q 値 (状態とアクションのペアの評価) のルックアップ テーブルをニューラル ネットワークに置き換えることが可能です。私は小さなライブラリをプログラムしました。このライブラリは、特定の入出力に対して必要な目標値を学習するために、自己構築したニューラル ネットワークを介して伝播および逆伝播することができます。
それで、私はまた、ウェブ全体をグーグルで検索しているときにこのサイトを見つけました(私が感じたように):http://www.cs.indiana.edu/~gasser/Salsa/nn.html Qラーニングがニューラルネットワークについて簡単に説明します。
アクションごとに追加の出力ニューロンがあり、これらの出力「ユニット」の 1 つの活性化値から推定 Q 値がわかります。(1 つの質問: 活性化値はニューロンの「出力」と同じですか、それとも別のものですか?)
標準のシグモイド関数を活性化関数として使用したため、関数値 x の範囲は
0<x<1
だから私は思った、私の目標値は常に0.0から1.0でなければならない - >質問:私の理解のその点は正しいですか?それとも私はそれについて何か誤解しましたか?
はいの場合、次の問題が発生します: ターゲット報酬/新しい Q 値を計算する式は次のとおりです: q(s,a) = q(s,a) + 学習率 * (報酬 + 割引係数 * q'(s,a) ) - q(s,a))
ターゲットが 0.0 から 1.0 である必要がある場合、ニューラル ネットワークの適切なターゲットを取得するには、この式をどのように実行すればよいでしょうか? 適切な報酬値を計算するにはどうすればよいですか? 目的から遠ざかるよりも、目的に向かって動くことの方が価値があるのでしょうか? (目標までの距離が長い場合の - 報酬よりも、目標に近づいた場合の + 報酬の方が多い?)
私の誤解もあると思います。その質問に答えていただけると幸いです。どうもありがとうございました!