Sutton & Barto's Bookに基づいて線形勾配降下 Sarsa を実装しようとしています。下の図のアルゴリズムを参照してください。
ただし、アルゴリズムの何かを理解するのに苦労しています:
- w と z の次元は、取られるアクションの数とは無関係ですか? 本では、それらは機能の数に等しい次元を持っているようです。これは、アクションの数に依存しないと言えます。
- アクションごとに aw と az はありますか? また、これが事実であるべきだということを本の中で見ることはできません。
- 上記の 2 つの箇条書きが正しければ、インデックス リスト F_a がアクションにどのように依存するかがわからないため、アクション値関数 q_a がアクションにどのように依存するかがわからない (下の黄色でマークされた行を参照)アルゴリズムで)しかし、アクション値はアクションに依存する必要があります。だから、得られないものがあります...
誰かが私のためにこれを明確にするのを手伝ってくれることを願っています:)