machine-learning - ゲームのさまざまな開始状態の MCTS 検索ツリー

Question

MCTS に関して基本的な質問があります。私の質問は、開始状態の処理に関するものです。私が理解している限り、検索ツリーは有効なアクションの分岐によって構築され、その結果、毎回同じ状態で開始するときに同じ検索ツリーが走査されます。しかし、ゲームが始まるたびにゲームの開始状態が異なる場合はどうなるでしょうか。(たとえば、異なるカードが配られた) その結果、複数のルートノードが本質的に、配られたカードの N 個の可能な組み合わせを持つゲームの N 個の異なる検索ツリーになりますか? これは、以前のゲームで作成した検索ツリーが、開始状態が異なると役に立たないということではないですか? MCTS では、さまざまな開始状態がどのように処理されますか?

前もって感謝します。

score 2 · Accepted Answer

私の知る限り、MCTS は最小最大ツリーの高速近似に使用されます。ここには「異なる開始ノード」というものはありません。特定の現在の状態を指定してアルゴリズムを実行し、最良の答え/移動を見つけます。カードゲームでは、カードなどが表示されたら実行します。「問題」は、一般に、特定の動きの結果が不明な非決定論的ゲームで発生します（ゲームルールのランダム性などにより）。このような状況は、"非決定論的ゲーム" (サイコロゲーム) または "部分的な情報を伴うゲーム" (カードゲームなど) と呼ばれます。それぞれについて、MCTS の方法が開発されています。

http://mcts.ai/をご覧になることをお勧めします。ここには、MCTS 関連の論文の優れたライブラリがあります。

machine-learning - ゲームのさまざまな開始状態の MCTS 検索ツリー

1 に答える 1

Related

Reference