tree - 複雑なゲームの MCTS でロールアウトを実行する方法

Question

わかりました。基本的には、MCTS がノード選択などでどのように機能するかを理解しています。理解していないのは、ランダムなロールアウトフェーズです。勝敗が決まるまで、将来のゲームのステップをランダムにシミュレートしているというのは正しいですか? 多くの状態と可能なアクション、未知の敵の動きを伴うより複雑なゲームでは、ロールアウトに非常に時間がかかりませんか? ゲームの終わりに到達するまで敵の動きをランダムにロールアウトする場合、勝敗をランダムに返すだけで十分ではありませんか? ロールアウトフェーズについて、3 ステップゲームまたは 4 ステップゲームのような簡単な例で説明していただけると幸いです。

前もって感謝します。

score 4 · Accepted Answer

ランダムなゲームをシミュレートすることは、勝敗をランダムに返すよりも有益です。

TicTacToe ボードを想像してみてください。一方の色はもう勝てませんが、もう一方の色は勝てます。明らかに、ランダムな展開により、この事実が明らかになる可能性があります。

さらに、通常、サンプルが特定の結果を返す確率には実際の情報があります。すべてのランダムプレイの 90% で勝つ状況は、すべてのランダムプレイで 10% しか勝てない状況よりも望ましい場合があります。もちろん、これは一概には言えません。1 つの分岐には、1 つの正しい応答がプレイされた場合にのみ特定の勝利が含まれる場合があります。また、この同じ分岐には、敗北する可能性のある多くのパスが含まれる場合があります。

また、MCTS に対する 1 つの可能な改善は、ランダムプレイアウトよりもスマートに行うことです。

tree - 複雑なゲームの MCTS でロールアウトを実行する方法

1 に答える 1

Related

Reference