1

わかりました。基本的には、MCTS がノード選択などでどのように機能するかを理解しています。理解していないのは、ランダムなロールアウト フェーズです。勝敗が決まるまで、将来のゲームのステップをランダムにシミュレートしているというのは正しいですか? 多くの状態と可能なアクション、未知の敵の動きを伴うより複雑なゲームでは、ロールアウトに非常に時間がかかりませんか? ゲームの終わりに到達するまで敵の動きをランダムにロールアウトする場合、勝敗をランダムに返すだけで十分ではありませんか? ロールアウト フェーズについて、3 ステップ ゲームまたは 4 ステップ ゲームのような簡単な例で説明していただけると幸いです。

前もって感謝します。

4

1 に答える 1

4

ランダムなゲームをシミュレートすることは、勝敗をランダムに返すよりも有益です。

TicTacToe ボードを想像してみてください。一方の色はもう勝てませんが、もう一方の色は勝てます。明らかに、ランダムな展開により、この事実が明らかになる可能性があります。

さらに、通常、サンプルが特定の結果を返す確率には実際の情報があります。すべてのランダム プレイの 90% で勝つ状況は、すべてのランダム プレイで 10% しか勝てない状況よりも望ましい場合があります。もちろん、これは一概には言えません。1 つの分岐には、1 つの正しい応答がプレイされた場合にのみ特定の勝利が含まれる場合があります。また、この同じ分岐には、敗北する可能性のある多くのパスが含まれる場合があります。

また、MCTS に対する 1 つの可能な改善は、ランダム プレイアウトよりもスマートに行うことです。

于 2013-01-08T10:58:59.730 に答える