この問題を Q-learning で解かなければなりません。さて、実際には、Q ラーニング ベースのポリシーを評価する必要があります。
私は観光マネージャーです。
私はn 個のホテルを持っており、それぞれに異なる人数を収容できます。
ホテルに入れる人ごとに、選択した部屋に基づいて報酬を受け取ります。
私が望むなら、その人を殺すこともできるので、ホテルには行きませんが、別の報酬が得られます. (OK、それは冗談です...しかし、それは私が自己移行を行うことができると言うことです。そのため、その行動の後、私の部屋にいる人の数は変わりません)。
my state は、各ホテルの人数を含むベクトルです。
私のアクションはゼロと 1 のベクトルであり、新しい人をどこに置くかを教えてくれます。- 私の報酬マトリックスは
、状態間の各遷移 (自己遷移の場合でも) ごとに取得する報酬によって形成されます。
さて、私は無制限の数の人々を得ることができるので(つまり、私はそれを埋めることができますが、私は彼らを殺し続けることができます)、どうすればQマトリックスを構築できますか? Q マトリックスがないと、ポリシーを取得できないため、評価できません...
私は何を間違って見ていますか?最終的にランダムな状態を選択する必要がありますか? ポイントをまったく逃しましたか?