4

Tom Mitchell の Machine Learning の本、最初の章を読んでいます。

私がやりたいことは、チェッカーを自分でプレイするプログラムを書き、最後に勝つことを学ぶことです。私の質問は、それが遭遇する非ターミナル ボード ポジションのクレジット割り当てについてです。その機能とランダムな重みの線形結合を使用して値を設定できるかもしれませんが、LMS ルールで更新するにはどうすればよいでしょうか? 終了状態以外にトレーニング サンプルがないためです。

私は自分の質問を明確に述べようとしましたが、明確に述べているかどうかわかりません。

4

1 に答える 1

1

私はその特定の本を読んだことはありませんが、私のアプローチは次のとおりです。白が勝ったとします。次に、白が通過したすべてのポジションは正のクレジットを受け取り、黒が通過したすべてのポジションは負のクレジットを受け取る必要があります。この推論を繰り返すと、ゲームを構成する一連の動きがあるときはいつでも、勝者からすべての位置に一定量のスコアを追加し、敗者からすべての位置から一定量のスコアを削除する必要があります。これは、一連のコンピューター対コンピューター ゲームで行います。

これで、多数のチェッカー ポジションとそれぞれのスコアで構成されるデータ セットができました。これらの位置の特徴を計算し、LMS などのお気に入りのリグレッサーをトレーニングできるようになりました。

このアプローチの改善は、リグレッサーを訓練し、その動きの予測スコアに従って各動きがランダムに描画されるゲームをさらに作成することです (つまり、より高いスコアの位置につながる動きはより高い確率になります)。次に、それらのスコアを更新し、リグレッサーを再トレーニングします。

于 2012-09-14T09:26:57.417 に答える