Tic-Tac-Toeを再生する人工ニューラルネットワークがありますが、まだ完成していません。
私がまだ持っているもの:
- すべてのタイムステップまたは移動「t」の整数値を持つ報酬配列「R[t]」(1 =プレーヤーAが勝ち、0 =引き分け、-1 =プレーヤーBが勝ちます)
- 入力値は、ネットワークを介して正しく伝播されます。
- 重みを調整するための式:
何が欠けている:
- TD学習:TD(λ)アルゴリズムを使用してネットワークのエラーを「逆伝播」する手順がまだ必要です。
しかし、私はこのアルゴリズムを本当に理解していません。
これまでの私のアプローチ...
遠位状態はそれほど多くの報酬を得てはならないため、トレース減衰パラメータλは「0.1」である必要があります。
学習率は、両方のレイヤー(入力と非表示)で「0.5」です。
報酬が遅れる場合です。ゲームが終了するまで、報酬は「0」のままです。すると、報酬は、最初のプレーヤーの勝利の場合は「1」、2番目のプレーヤーの勝利の場合は「-1」、引き分けの場合は「0」になります。
私の質問:
- ネットのエラー(TDエラー)はいつどのように計算しますか?
- エラーの「バックプロパゲーション」をどのように実装できますか?
- TD(λ)を使用して重みをどのように調整しますか?
よろしくお願いします:)