3

t=1,...,40 周期の有限地平線決定問題について研究しています。時間ステップ t ごとに、エージェントが状態 s(t) ∈ S(t) にある間、(唯一の) エージェントはアクション a(t) ∈ A(t) を選択する必要があります。状態 s(t) で選択されたアクション a(t) は、次の状態 s(t+1) への遷移に影響します。したがって、有限地平線マルコフ決定問題があります。

私の場合、A(t)=A および S(t)=S が成り立ち、A のサイズは 6 000 000 で、S のサイズは 10^8 です。さらに、遷移関数は確率的です。

私はモンテカルロ木探索 (MCTS) の理論に比較的慣れていないので、自問自答します: MCTS は私の問題に適した方法ですか (特に、A と S のサイズが大きく、確率的遷移関数が原因でしょうか?)

私はすでに MCTS に関する多くの論文を読みました (たとえば、progressiv widening と double progressiv widening は非常に有望に思えます) が、MCTS を同様の問題に適用した経験について、またはこの問題に対する適切な方法について教えてくれる人がいるかもしれません (大きな状態で) /アクション空間と確率的遷移関数)。

4

1 に答える 1

1

状態ごとに 600 万の確率的アクションがあるため、本質的に永久に実行しない限り、どのような種類のシミュレーションでもこれらの動きを現実的に区別することはできないと思います。

100 MM の状態は多くはありませんが、それらすべての値を 1 ギガバイト未満のメモリに格納でき、値の反復やポリシーの反復のようなものを使用すると、これを最適にはるかに高速に解決できます。

于 2019-01-12T17:27:24.680 に答える