私は機械学習を始めようとしており、自分で試してみることにしました。小さな三目並べゲームを書きました。これまでのところ、コンピューターはランダムな動きを使用して自分自身と対戦しています。
ここで、ボードの現在の状態に関する知識に基づいて探索または悪用するエージェントを作成することで、強化学習を適用したいと考えています。
私が理解していない部分は次のとおりです。エージェントは現在の状態に合わせて自分自身をトレーニングするために何を使用していますか? RNG ボット (o) プレイヤーがこれを行うとしましょう:
[..][..][..]
[..][x][o]
[..][..][..]
ここで、エージェントは最善の動きを決定する必要があります。よく訓練された人は、1 位、3 位、7 位、または 9 位を選ぶでしょう。DB で彼を勝利に導いた同様の状態を検索しますか? もしそうなら、最終状態(勝ち/負け/引き分け状態)になるまで、すべての動きをDBに保存する必要があると思いますが、それは1回のプレイでかなりの量のデータになるのでしょうか?
これを間違って考えている場合は、これを正しく行う方法を知りたいです。