1

Kerasで強化学習を介して三目並べをプレイする際にニューラルネットをトレーニングしようとしていPythonます。現在、ネットは現在のボードの入力を取得します。

    array([0,1,0,-1,0,1,0,0,0])
1 = X 
-1 = O
0 = an empty field

ネットがゲームに勝った場合、実行したすべてのアクション (出力) に対して報酬を受け取ります。 [0,0,0,0,1,0,0,0,0] ネットが負けたら悪い報酬で育成したい。 [0,0,0,0,-1,0,0,0,0]

しかし、現在、私は多くの 0.000e-000 精度を得ています。

「悪い報酬」を訓練することはできますか?または、それができない場合は-1、代わりにどのようにすればよいですか?

前もって感謝します。

4

1 に答える 1