Q-learning を使用してLudoを再生するエージェントを実装しようとしています。イプシロン 0.1、学習率 0.6、割引係数 0.8 の e-greedy アクション セレクターでトレーニングしました。
私は約 50K ステップのゲームを実行しましたが、1 つのゲームにも勝てませんでした。Qテーブルは私が望むものとかなり正確であるように見えるので、これは不可解です。なぜ私は無作為のプレイヤーにそんなに多くを失っているのですか? Q テーブルがそれほど変化しない場合、システムは勝つことができるはずではありませんか? 一般に、エージェントをトレーニングするために何回反復する必要がありますか?
どのくらいの情報が必要なのかわかりません。必要に応じて、関連する情報で投稿を更新します。
Q テーブルの行として表される可能な状態:
- 自宅で
- 地球上で
- 星の上
- ゴールイン
- 勝者の道で
- 同じ色のプレイヤーと安全に
- フリースペースについて
各状態の列として表される可能なアクション:
- 家を出る
- ゴールに入る
- グローブに移動
- スターに移動
- スター経由でゴールへ移動
- 同じ色のトークンで安全に入る
- 勝者の道に入る
- 対戦相手が地球上にいる場合は自殺
- 対戦相手を殺す
- 動くだけ
- 移動不可
Q テーブルをランダムな値で初期化することから始め、5000 回の反復後に次のようなテーブルで終了します。
-21.9241 345.35 169.189 462.934 308.445 842.939 256.074 712.23 283.328 137.078 -32.8
398.895 968.8 574.977 488.216 468.481 948.541 904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321 589.25 616.682 583.632 481.84 457.585 683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07 1068
807.592 1070.17 544.13 1385.63 883.123 1662.97 524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984 689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956 229.94 294.462 311.505 1428.26
私の即時の報酬は、アクションが実行された後、各トークンがゲーム内でどれくらい離れているかに定数 10 を掛けたものに基づいています。ホーム ポジションの位置は -1 で、ゴール ポジションの位置は 99 です。中間の位置はすべて 0 ~ 55 の位置です。トークンがゴールにある場合、ゴールにある各トークンの即時報酬に +100 の追加報酬が追加されます。 .
通常、私のプレーヤーは常に 1 つのトークンをゴールに移動します...それだけです。