Tom Mitchell の Machine Learning の本、最初の章を読んでいます。
私がやりたいことは、チェッカーを自分でプレイするプログラムを書き、最後に勝つことを学ぶことです。私の質問は、それが遭遇する非ターミナル ボード ポジションのクレジット割り当てについてです。その機能とランダムな重みの線形結合を使用して値を設定できるかもしれませんが、LMS ルールで更新するにはどうすればよいでしょうか? 終了状態以外にトレーニング サンプルがないためです。
私は自分の質問を明確に述べようとしましたが、明確に述べているかどうかわかりません。