python - 分類ニューラルネットで悪い報酬を訓練する方法は?

翻译自：https://stackoverflow.com/questions/59592009 2020-01-04T15:13:44.250

85 次

Kerasで強化学習を介して三目並べをプレイする際にニューラルネットをトレーニングしようとしていPythonます。現在、ネットは現在のボードの入力を取得します。

    array([0,1,0,-1,0,1,0,0,0])

1 = X 
-1 = O
0 = an empty field

ネットがゲームに勝った場合、実行したすべてのアクション (出力) に対して報酬を受け取ります。 [0,0,0,0,1,0,0,0,0] ネットが負けたら悪い報酬で育成したい。 [0,0,0,0,-1,0,0,0,0]

しかし、現在、私は多くの 0.000e-000 精度を得ています。

「悪い報酬」を訓練することはできますか？または、それができない場合は-1、代わりにどのようにすればよいですか?

前もって感謝します。

1 に答える 1