machine-learning - トレーニング値の推定と重みの調整に関する特定の機械学習クエリ

Question

こんにちは、私は機械学習の分野に本当に慣れていません。最近、Tom Mitchell による Machine Learning という本を読み始めました。最初の章の特定のセクションで、彼がトレーニング値の推定と重みの調整について話しているところに行き詰まっています。トレーニング値を推定する概念の説明は素晴らしいですが、これらすべてを説明するのは簡単ではないことを理解しています。そのため、誰かが私にリソース (講義ビデオ、または簡単な講義スライド、またはいくつかのテキストスニペット) は、トレーニングデータの推定などの概念について説明しています。

繰り返しになりますが、私が求めている質問に関してこれ以上の情報を提供することはできません. この本のセクションは、「Tom Mitchell による機械学習」の 1.2.4.1 および 1.2.4.2 です。

前もって感謝します。

score 4 · Accepted Answer

ああ。古典的な教科書。私のコピーは少し古くなっていますが、私のセクション 1.2.4 はあなたのものと同じトピックを扱っているようです。

まず第一に、これは一般的で威圧的でないことを目指した導入の章ですが、その結果、非常に抽象的で少し曖昧でもあります。この時点で、あなたが概念を理解していなくてもあまり心配する必要はありません。考えすぎている可能性が高いです。後の章では、現在不明確に見えるものを具体化します。

このコンテキストでの値は、一般的な数値のような「値」ではなく、特定の状態またはインスタンスの品質またはパフォーマンスの尺度として理解する必要があります。彼のチェッカーの例を使用すると、高い値を持つ状態は、コンピュータープレーヤーにとって良い/有利なボード状況です。

ここでの主なアイデアは、 valueで遭遇する可能性のあるすべての状態を提供でき、どのアクションを実行することによって現在の状態からどの状態に到達できるかを定義する一連のルールがある場合、情報に基づいたものを作成できるということです。どの行動をとるかの決定。

しかし、状態に値を代入することは、ゲームの最終状態にとっては些細な作業にすぎません。最終状態で達成される値は、しばしば報酬と呼ばれます。もちろん、目標は報酬を最大化することです。トレーニング値の推定とは、後でゲームで取得した結果に基づいて、推測された値を中間状態に割り当てるプロセスを指します。

したがって、多くのトレーニングゲームをプレイしながら、どの状態に遭遇したかを追跡します。状態 X が状態 Y につながることがわかった場合は、X の現在の推定値に基づいて、X の推定値を少し変更できます。 Y の現在の推定値。これが「トレーニングの重みを推定する」ということです。トレーニングを繰り返すことで、モデルは経験を積み、推定値は信頼できる値に収束するはずです。敗北につながる動きを避け、勝利につながる動きを好むようになります。このような更新を行うにはさまざまな方法があり、ゲームの状態を表すにはさまざまな方法がありますが、それが本書の残りの部分です。

これが役立つことを願っています！

machine-learning - トレーニング値の推定と重みの調整に関する特定の機械学習クエリ

1 に答える 1

Related

Reference