ああ。古典的な教科書。私のコピーは少し古くなっていますが、私のセクション 1.2.4 はあなたのものと同じトピックを扱っているようです。
まず第一に、これは一般的で威圧的でないことを目指した導入の章ですが、その結果、非常に抽象的で少し曖昧でもあります。この時点で、あなたが概念を理解していなくてもあまり心配する必要はありません。考えすぎている可能性が高いです。後の章では、現在不明確に見えるものを具体化します。
このコンテキストでの値は、一般的な数値のような「値」ではなく、特定の状態またはインスタンスの品質またはパフォーマンスの尺度として理解する必要があります。彼のチェッカーの例を使用すると、高い値を持つ状態は、コンピューター プレーヤーにとって良い/有利なボード状況です。
ここでの主なアイデアは、 valueで遭遇する可能性のあるすべての状態を提供でき、どのアクションを実行することによって現在の状態からどの状態に到達できるかを定義する一連のルールがある場合、情報に基づいたものを作成できるということです。どの行動をとるかの決定。
しかし、状態に値を代入することは、ゲームの最終状態にとっては些細な作業にすぎません。最終状態で達成される値は、しばしば報酬と呼ばれます。もちろん、目標は報酬を最大化することです。トレーニング値の推定とは、後でゲームで取得した結果に基づいて、推測された値を中間状態に割り当てるプロセスを指します。
したがって、多くのトレーニング ゲームをプレイしながら、どの状態に遭遇したかを追跡します。状態 X が状態 Y につながることがわかった場合は、X の現在の推定値に基づいて、X の推定値を少し変更できます。 Y の現在の推定値。これが「トレーニングの重みを推定する」ということです。トレーニングを繰り返すことで、モデルは経験を積み、推定値は信頼できる値に収束するはずです。敗北につながる動きを避け、勝利につながる動きを好むようになります。このような更新を行うにはさまざまな方法があり、ゲームの状態を表すにはさまざまな方法がありますが、それが本書の残りの部分です。
これが役立つことを願っています!