1

状態アクション値関数ではなく、状態値関数のみV(s)Q(s,a)を学習することを完全に中心とする、値ベースの (深層) 強化学習 RL アルゴリズムはありますか?

そうでない場合、それはなぜですか、または簡単に実装できますか?

Pytorch、Tensorflow、または RLlib のさらに高レベルなど、Python でも利用可能な実装はありますか

私は尋ねるので

  • 私は、(i) 分散型エージェントに代わって真実を伝えることをうまく奨励し、(ii) 基本的にさまざまなアクターi (異なる達成可能な生理後の状態 s i,t+1に対する V i (s i,t+1 ) についてすべてのアクター i) に対して、エージェントのアクションを定義します。個々のエージェントの観点からは、段階的な学習を伴うマルチエージェントの性質は、トレーニングが終了しない限り、システムが非定常に見えることを意味します。私の問題の Q(s,a) 関数は、すべてのエージェントに基づいて個別のサブ問題を解決することにより、集中型メカニズムがすべてのエージェントの最終的なアクションを容易に導き出すことができる最終値関数 V(s) を学習するよりも大幅に効率的ではありません値。

  • 時間差分学習を使用した典型的な DQN の計算は、結合された Q(s,a) ではなく、V(s) のディープ ネットワークの状態のみの値ベースのトレーニングに自然に適応できるようです。しかし、価値ベースの RL サブドメイン内では、誰もが Q(s,a) の学習に焦点を当てているようであり、私はこれまで純粋に V(s) を学習するアルゴリズムを見つけていません (分析的で深くない伝統的な Bellman を除く)。方程式の動的計画法)。

デュエリング DQN (DDQN) については知っていますが、探しているものとまったく同じではないようです。「少なくとも」DDQN には の個別の学習器がありますV(s)が、全体として、分散型の方法で を容易に学習することを目標としておりQ(s,a)、これは私の場合には役に立たないようです。

4

0 に答える 0