machine-learning - 小切手でのトレーニング例の値の更新と推定の重み

Question

Tom Mitchell の Machine Learning の本、最初の章を読んでいます。

私がやりたいことは、チェッカーを自分でプレイするプログラムを書き、最後に勝つことを学ぶことです。私の質問は、それが遭遇する非ターミナルボードポジションのクレジット割り当てについてです。その機能とランダムな重みの線形結合を使用して値を設定できるかもしれませんが、LMS ルールで更新するにはどうすればよいでしょうか? 終了状態以外にトレーニングサンプルがないためです。

私は自分の質問を明確に述べようとしましたが、明確に述べているかどうかわかりません。

score 1 · Accepted Answer

私はその特定の本を読んだことはありませんが、私のアプローチは次のとおりです。白が勝ったとします。次に、白が通過したすべてのポジションは正のクレジットを受け取り、黒が通過したすべてのポジションは負のクレジットを受け取る必要があります。この推論を繰り返すと、ゲームを構成する一連の動きがあるときはいつでも、勝者からすべての位置に一定量のスコアを追加し、敗者からすべての位置から一定量のスコアを削除する必要があります。これは、一連のコンピューター対コンピューターゲームで行います。

これで、多数のチェッカーポジションとそれぞれのスコアで構成されるデータセットができました。これらの位置の特徴を計算し、LMS などのお気に入りのリグレッサーをトレーニングできるようになりました。

このアプローチの改善は、リグレッサーを訓練し、その動きの予測スコアに従って各動きがランダムに描画されるゲームをさらに作成することです (つまり、より高いスコアの位置につながる動きはより高い確率になります)。次に、それらのスコアを更新し、リグレッサーを再トレーニングします。

machine-learning - 小切手でのトレーニング例の値の更新と推定の重み

1 に答える 1

Related

Reference