1

大規模なマルコフ決定プロセスとして表現したい問題があります。状態遷移と報酬を予測できるモデルがあることを期待していますが、価値関数とポリシー関数を推論したいと考えています。値関数と「Q」関数のおおよその推論、および線形モデルまたはニューラル ネットワークを介した推論はうまく機能します。

重要な要件: メモリ内で表現できないように、状態空間を拡張します。状態を特徴付ける特徴値によって状態を表す必要があります。

この大規模な設定で価値とポリシー機能を推測するのに役立つライブラリはありますか? 私が遭遇したマルコフ決定プロセス ライブラリのほとんどは、非常に小規模な問題と正確な推論に向けられているようです。

ターンキー ソリューションがない場合、そのようなシステムを構築する方法について誰か提案がありますか?

4

1 に答える 1

1

TensorFlow 開発者によってサポートされており、Q 値関数の近似のために DQN エージェントが事前に実装されているTF-Agentsを使用できます。あなたがしなければならない主なことは、エージェントと一緒に MDP を構成する特定の環境のコードを書き留めることです。

于 2021-02-13T13:38:02.570 に答える