問題タブ [monte-carlo-tree-search]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1076 参照

artificial-intelligence - Monte Carlo Tree Search Improvements

I'm trying to implement the MCTS algorithm on a game. I can only use around 0.33 seconds per move. In this time I can generate one or two games per child from the start state, which contains around 500 child nodes. My simulations aren't random, but of course I can't make a right choice based on 1 or 2 simulations. Further in the game the tree becomes smaller and I can my choices are based on more simulations.

So my problem is in the first few moves. Is there a way to improve the MCTS algorithm so it can simulate more games or should I use another algorithm?

0 投票する
1 に答える
225 参照

machine-learning - モンテカルロ木探索 - 反対の目標を持つ 2 人のプレーヤーのゲームに対する子選択関数の背後にある直感

三目並べの MCTS の Hello World の例に関する簡単な質問、

取締役会が与えられ、最適な決定を下したいとしましょう。シミュレーション中(リーフが満たされるまで)、連続するノードの選択を理解していないため、探索/搾取のトレードオフ関数によって決定されます(ウィキペディアで説明されているように)。ここでの関数の最初のコンポーネント (活用) の背後にある直感は何なのか、特に反対の目標を持つ 2 人のプレイヤー間のゲームの場合はどうなのか、本当に疑問に思います。では、誰が動くかで「最有望」の意味が変わってきます。誰が次の動きをするか (特にその最初のコンポーネント) に応じて、この機能を変更するべきではありませんか?

0 投票する
1 に答える
297 参照

tic-tac-toe - モンテカルロ木探索 - 「最も有望な」移動関数

tic-tac-toe hello-world MCTS ゲーム プレーヤーを実装しようとしましたが、問題が発生しました。

ゲームをシミュレートし、「最も有望な」(エクスプロイト/エクスプロア) ノードを選択している間、私は合計勝利数 (「エクスプロイト」部分) のみを考慮します - これは特定の問題を引き起こし、結果として得られるアルゴリズムはまったく防御的ではありません。その結果、どちらかを選択するときに

  • (100 引き分け; 10 負け)
  • (1 勝 109 敗)

私のuct関数は「値」ではなく平均勝利を貪欲にカウントするため、悪い方が選択されます(1; 109)。

この問題を正しく識別していますか? 「平均勝率」から、すべての結果タイプを考慮に入れる他の値メトリックに切り替える必要がありますか?

どんなアドバイスでも大歓迎です、ありがとう