Keras
で強化学習を介して三目並べをプレイする際にニューラルネットをトレーニングしようとしていPython
ます。現在、ネットは現在のボードの入力を取得します。
array([0,1,0,-1,0,1,0,0,0])
1 = X
-1 = O
0 = an empty field
ネットがゲームに勝った場合、実行したすべてのアクション (出力) に対して報酬を受け取ります。 [0,0,0,0,1,0,0,0,0]
ネットが負けたら悪い報酬で育成したい。 [0,0,0,0,-1,0,0,0,0]
しかし、現在、私は多くの 0.000e-000
精度を得ています。
「悪い報酬」を訓練することはできますか?または、それができない場合は-1
、代わりにどのようにすればよいですか?
前もって感謝します。