machine-learning - 地方の州にユーティリティを割り当てるときに長期的なビューを指定するのが難しい

Question

私は現在、Wiley and Woolridgeのマルチエージェントシステム入門を読んでおり、誰かが私に次のことを明確にしてくれるかどうかを望んでいました。効用関数について話すとき、著者は次のように述べています。

効用は、状態がどの程度「良好」であるかを表す数値です。効用が高いほど、優れています。

エージェントの仕事は、効用を最大化する状態をもたらすことです-これがどのように行われるかをエージェントに指定しません。このアプローチでは、タスク仕様は単に関数になります
u:E -> R 
これは、実際の値をすべての環境状態に関連付けます。

このようなパフォーマンス測定値が与えられると、特定の環境でのエージェントの全体的な効用をいくつかの異なる方法で定義できます。1つの（悲観的な）方法は、エージェントの効用を、エージェントが遭遇する可能性のある最悪の状態の効用として定義することです。もう1つは、全体的な効用を、遭遇したすべての状態の平均効用として定義することです。正しい方法も間違った方法もありません。測定は、エージェントに実行させたいタスクの種類によって異なります。

このアプローチの主な欠点は、ユーティリティを地方の州に割り当てることです。ユーティリティを個々の州に割り当てるときに、長期的なビューを指定することは困難です。

私は不利な点と正確に地方の州が何であるかを理解するのに問題を抱えています。誰かがこれを明確にすることができますか？

score 15 · Accepted Answer

ここでは、アイデアを説明するための例を示します。それが役に立てば幸い。詳細については、スライドを参照してください。

問題：

これは、と呼ばれる古典的な問題Tile Worldです。

エージェント、タイル、障害物、穴がある2次元グリッドの世界。
エージェントは4つの方向（上、下、左、右）に移動でき、タイルの隣にある場合は、適切な方向に押すことができます。
穴はエージェントがタイルで埋める必要があります。
目的は、すべての穴をタイルで埋めることです。

ここに画像の説明を入力してください

環境状態

環境の状態は、以下の変数を使用して説明できます。

エージェントの現在の位置(a_x, a_y)
4つのタイルの現在の位置(t1_x, t1_y)、、、(t2_x, t2_y)(t3_x, t3_y)(t4_x, t4_y)

状態転送

現在の状態で、エージェントがその下のタイルを押し下げると、システム状態は次の状態に移行します。この状態では、エージェントの現在の位置と押されているタイルの位置を除いて、すべての変数が同じままです。

効用関数

私たちの効用関数は、埋められている穴のパーセンテージとして定義できます。

            # of holes filled
   u =  -------------------------
            # of total holes

それは明らかです：

エージェントがすべての穴を埋める場合、効用= 1
エージェントがゼロの穴を埋める場合、効用= 0

ユーティリティ機能の関連付け

次に、以下の2つの状態を見てください。

ここに画像の説明を入力してください

それは簡単にわかります。

両方の状態の効用値は同じです1/3（3つの穴のうち1つが埋められているため）
左側（状態s1）はデッドポジションであり、すべてのタイルを穴に移動することはできません
右側（状態s2）は、残りの2つのタイルを穴に移動するオプションがある適切な位置です。

したがって、結論は次のとおりです。

効用関数をローカル状態にのみ関連付ける場合、たとえば、u(s1)またはu(s2)、実際には、効用の点で違いを区別することはできません。u(s1)=u(s2)=1/3。
runで表すことができる状態のグローバルまたは長期ビューが必要です。これは、インターリーブされた環境状態とエージェントが実行するアクションのシーケンスです。
ユーティリティを個々の状態ではなく、実行に割り当てることができます。このようなアプローチは、本質的に長期的な見方をします。

u：実行->実際の値
この設定では、エージェントの最適な戦略は期待効用を最大化することです。これは、それが最高になることを意味するわけではありませんが、平均して最高のパフォーマンスを期待できます。

期待効用=（u（r）x Prob（r））の合計

詳細については、あなたが言及した本または対応するスライドを参照してください。

machine-learning - 地方の州にユーティリティを割り当てるときに長期的なビューを指定するのが難しい

1 に答える 1

問題：

環境状態

状態転送

効用関数

ユーティリティ機能の関連付け

Related

Reference