0

私はパックマン ゲームの強化学習エージェントのコーディングに忙しく、バークレーの CS コースのパックマン プロジェクト、特に強化学習セクションに出会いました。

近似 Q ラーニング エージェントには、特徴近似が使用されます。このコードには単純なエクストラクタが実装されています。私が興味を持っているのは、フィーチャが返される前に、フィーチャが 10 だけ縮小されるのはなぜですか? 係数 10 を使用せずにソリューションを実行すると、パックマンのパフォーマンスが大幅に低下することがわかりますが、なぜでしょうか?

4

1 に答える 1

0

複数のテストを実行した後、最適な Q 値が大きく発散する可能性があることがわかりました。実際、通常はパックマンが丸薬を食べたくなる機能でさえ、すべての機能が否定的になる可能性があります。そのため、彼はただそこに立って、最終的に幽霊から逃げようとしますが、レベルを終了しようとはしません.

これは彼がトレーニングで負けたときに起こり、負の報酬がシステムを介して伝播され、ゴーストの潜在的な数が 1 よりも多くなる可能性があるため、これが重みに大きく影響し、すべてが非常に負になり、システムはこれから「回復」できません。

機能エクストラクタを調整して機能のみをスケーリングすることでこれを確認したところ#-of-ghosts-one-step-away、PacMan はより良い結果を得ることができました。

振り返ってみると、この質問はより数学的なものになり、別のスタック交換に適している可能性があります。

于 2013-05-08T19:27:15.740 に答える