machine-learning - モンテカルロ木探索 - 反対の目標を持つ 2 人のプレーヤーのゲームに対する子選択関数の背後にある直感

翻译自：https://stackoverflow.com/questions/48736380 2018-02-11T20:56:16.430

225 次

三目並べの MCTS の Hello World の例に関する簡単な質問、

取締役会が与えられ、最適な決定を下したいとしましょう。シミュレーション中（リーフが満たされるまで）、連続するノードの選択を理解していないため、探索/搾取のトレードオフ関数によって決定されます（ウィキペディアで説明されているように）。ここでの関数の最初のコンポーネント (活用) の背後にある直感は何なのか、特に反対の目標を持つ 2 人のプレイヤー間のゲームの場合はどうなのか、本当に疑問に思います。では、誰が動くかで「最有望」の意味が変わってきます。誰が次の動きをするか (特にその最初のコンポーネント) に応じて、この機能を変更するべきではありませんか?

machine-learning - モンテカルロ木探索 - 反対の目標を持つ 2 人のプレーヤーのゲームに対する子選択関数の背後にある直感

1 に答える 1

Related

Reference