私は現在、Wiley and Woolridgeのマルチエージェントシステム入門を読んでおり、誰かが私に次のことを明確にしてくれるかどうかを望んでいました。効用関数について話すとき、著者は次のように述べています。
効用は、状態がどの程度「良好」であるかを表す数値です。効用が高いほど、優れています。
エージェントの仕事は、効用を最大化する状態をもたらすことです-これがどのように行われるかをエージェントに指定しません。このアプローチでは、タスク仕様は単に関数になります
u:E -> R
これは、実際の値をすべての環境状態に関連付けます。
このようなパフォーマンス測定値が与えられると、特定の環境でのエージェントの全体的な効用をいくつかの異なる方法で定義できます。1つの(悲観的な)方法は、エージェントの効用を、エージェントが遭遇する可能性のある最悪の状態の効用として定義することです。もう1つは、全体的な効用を、遭遇したすべての状態の平均効用として定義することです。正しい方法も間違った方法もありません。測定は、エージェントに実行させたいタスクの種類によって異なります。
このアプローチの主な欠点は、ユーティリティを地方の州に割り当てることです。ユーティリティを個々の州に割り当てるときに、長期的なビューを指定することは困難です。
私は不利な点と正確に地方の州が何であるかを理解するのに問題を抱えています。誰かがこれを明確にすることができますか?