私はパックマン ゲームの強化学習エージェントのコーディングに忙しく、バークレーの CS コースのパックマン プロジェクト、特に強化学習セクションに出会いました。
近似 Q ラーニング エージェントには、特徴近似が使用されます。このコードには単純なエクストラクタが実装されています。私が興味を持っているのは、フィーチャが返される前に、フィーチャが 10 だけ縮小されるのはなぜですか? 係数 10 を使用せずにソリューションを実行すると、パックマンのパフォーマンスが大幅に低下することがわかりますが、なぜでしょうか?