三目並べの MCTS の Hello World の例に関する簡単な質問、
取締役会が与えられ、最適な決定を下したいとしましょう。シミュレーション中(リーフが満たされるまで)、連続するノードの選択を理解していないため、探索/搾取のトレードオフ関数によって決定されます(ウィキペディアで説明されているように)。ここでの関数の最初のコンポーネント (活用) の背後にある直感は何なのか、特に反対の目標を持つ 2 人のプレイヤー間のゲームの場合はどうなのか、本当に疑問に思います。では、誰が動くかで「最有望」の意味が変わってきます。誰が次の動きをするか (特にその最初のコンポーネント) に応じて、この機能を変更するべきではありませんか?