2

この問題を Q-learning で解かなければなりません。さて、実際には、Q ラーニング ベースのポリシーを評価する必要があります。

私は観光マネージャーです。

私はn 個のホテルを持っており、それぞれに異なる人数を収容できます。

ホテルに入れる人ごとに、選択した部屋に基づいて報酬を受け取ります。

私が望むなら、その人を殺すこともできるので、ホテルには行きませんが、別の報酬が得られます. (OK、それは冗談です...しかし、それは私が自己移行を行うことができると言うことです。そのため、その行動の後、私の部屋にいる人の数は変わりません)。

  • my state は、各ホテルの人数を含むベクトルです。


  • 私のアクションはゼロと 1 のベクトルであり、新しい人をどこに置くかを教えてくれます。

  • 私の報酬マトリックスは
    、状態間の各遷移 (自己遷移の場合でも) ごとに取得する報酬によって形成されます。

さて、私は無制限の数の人々を得ることができるので(つまり、私はそれを埋めることができますが、私は彼らを殺し続けることができます)、どうすればQマトリックスを構築できますか? Q マトリックスがないと、ポリシーを取得できないため、評価できません...

私は何を間違って見ていますか?最終的にランダムな状態を選択する必要がありますか? ポイントをまったく逃しましたか?

4

4 に答える 4

1

「それは可能ですか?」という答えではないかもしれませんが... r 学習について読んでください。この特定の問題を解決するには、Q 関数または V 関数だけでなく、rho (期待される報酬) も学習する必要があります。時間とともに。Q と rho の共同学習により、より優れた戦略が得られます。

于 2016-04-04T21:12:07.837 に答える
1

強化学習の問題は、最終状態自体を必要としません。彼らが必要としているのは報酬状態です。ですから、ご褒美さえあれば大丈夫だと思います。

このようなRLの問題を抱えたXPはあまりありません。コメンターが示唆しているように、これは非常に巨大な状態空間のように聞こえます。離散アプローチの使用に慣れている場合は、問題の範囲 (限られた数の人とホテル/部屋) を制限し、より小さな状態行列で Q 学習を緩くすることで、良いスタートを切り、問題について何かを学ぶことができます。 .

または、ニューラル ネットワークのような無限の状態空間を処理できるメソッドにジャンプすることもできます。

私の経験では、最初に小さな問題を試す忍耐力があれば、次に大きな問題を解決する準備が整います。

于 2014-04-23T13:36:46.040 に答える