私は機械学習の背景知識がほとんどないため、私の質問がばかげているように思われる場合はご容赦ください。
私が読んだことに基づいて、現時点で最高のモデルフリー強化学習アルゴリズムは Q-Learning であり、エージェントの世界の各状態とアクションのペアに q 値が与えられ、各状態で最高のアクションq 値が選択されます。その後、q 値は次のように更新されます。
Q(s,a) = (1-α)Q(s,a) + α(R(s,a,s') + (max_a' * Q(s',a'))) α は学習レート。
明らかに、高次元の問題では、状態の数が天文学的に大きくなり、q 値テーブルの格納が実行不可能になります。
そのため、Q ラーニングを実際に実装するには、状態 (特徴) の一般化による Q 値近似を使用する必要があります。たとえば、エージェントが Pacman の場合、機能は次のようになります。
- 最も近い点までの距離
- 最も近いゴーストまでの距離
- パックマンがトンネルに?
そして、すべての単一の状態の q 値の代わりに、すべての単一の機能の q 値のみが必要になります。
だから私の質問は:
強化学習エージェントが追加の機能を作成または生成することは可能ですか?
私が行ったいくつかの研究:
この投稿では、A Geramifard の iFDD メソッドについて言及しています。
- http://www.icml-2011.org/papers/473_icmlpaper.pdf
- http://people.csail.mit.edu/agf/Files/13RLDM-GQ-iFDD+.pdf
これは「機能の依存関係を発見する」方法ですが、論文では一連のバイナリ機能から始めることを想定しているため、それが機能の生成であるかどうかはわかりません。
私が見つけた別の論文は、Playing Atari with Deep Reinforcement Learningが適切であり、「さまざまなニューラル ネットワーク アーキテクチャを使用して高レベルの機能を抽出する」ものでした。
私は論文を読みましたが、まだ彼らのアルゴリズムを肉付けする/完全に理解する必要があります. これは私が探しているものですか?
ありがとう