tic-tac-toe hello-world MCTS ゲーム プレーヤーを実装しようとしましたが、問題が発生しました。
ゲームをシミュレートし、「最も有望な」(エクスプロイト/エクスプロア) ノードを選択している間、私は合計勝利数 (「エクスプロイト」部分) のみを考慮します - これは特定の問題を引き起こし、結果として得られるアルゴリズムはまったく防御的ではありません。その結果、どちらかを選択するときに
- (100 引き分け; 10 負け)
- (1 勝 109 敗)
私のuct関数は「値」ではなく平均勝利を貪欲にカウントするため、悪い方が選択されます(1; 109)。
この問題を正しく識別していますか? 「平均勝率」から、すべての結果タイプを考慮に入れる他の値メトリックに切り替える必要がありますか?
どんなアドバイスでも大歓迎です、ありがとう