ガンマ値が大きいか小さいかによって、アルゴリズムにどのような違いが生じますか? 私の視覚では、0 でも 1 でもない限り、まったく同じように動作するはずです。反対に、どのガンマを選択しても、Qvalues は非常に速くゼロに近づくようです (簡単なテストで 10^-300 のオーダーの値を取得しています)。通常、人々はどのように Qvalues をプロットしますか (私は (x, y, その状態に最適な QValue) をプロットしています) その問題を考えると?
また、Q ラーニングの更新関数にアルファ パラメーターを使用する理由がわかりません。これは基本的に、Q 値関数に対して行う更新の大きさを設定します。通常、時間の経過とともに減少するという考えがあります。それが時間の経過とともに減少することに何の関心がありますか?最初の更新値は、1000 エピソード以降よりも重要である必要がありますか?
また、エージェントが貪欲なアクションを実行したくない場合に毎回状態空間を探索するための良いアイデアは、まだ QValue がゼロの状態を探索することです (これは、少なくともほとんどの場合、これまでにない状態)、しかし、どの文献にも言及されていません。これには欠点がありますか?これは(少なくともいくつかの)一般化関数では使用できないことを知っています。
他のアイデアは、訪問した状態/アクションのテーブルを保持し、その状態で以前に試行された回数が少ないアクションを実行しようとすることです。もちろん、これは比較的小さな状態空間でのみ実行できます (私の場合は間違いなく可能です)。
探索プロセスの後半での 3 つ目のアイデアは、最適な qvalue を探すために選択されたアクションだけでなく、考えられるすべてのアクションとその状態の内部を調べてから、その状態の他のものなどを調べることです。
これらの質問は無関係であることは承知していますが、以前にこれに取り組んだことがあり、(おそらく) 苦労したことのある人の意見を聞きたいです。