多数のアクションがある「ディープ Q ラーニング」を使用してモデルを構築しようとしています (2908)。標準の DQN: ( https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf ) を使用してある程度の成功を収めた後、アクション スペースが大きすぎて実行できないと判断したため、さらに調査を行うことにしました。効果的な探索。
その後、私はこの論文を発見しました: https://arxiv.org/pdf/1512.07679.pdfそこでは、彼らはアクター批評家モデルとポリシー勾配を使用し、それから私を導きました: https://arxiv.org/pdf/1602.01783.pdfポリシー勾配を使用して、DQN 全体よりもはるかに優れた結果を取得します。
Keras にポリシー グラデーションを実装しているサイトをいくつか見つけました。2016/06/14/kerlym-a-deep-reinforcement-learning-toolbox-in-keras/しかし、それらがどのように実装されているか混乱しています。前者 (そして私が論文を読んだとき) では、アクター ネットワークに入力と出力のペアを提供する代わりに、すべての重みの勾配を提供し、ネットワークを使用してそれを更新するように見えますが、後者では、入出力ペアを計算するだけです。
私は自分自身を混乱させましたか?入力と出力のペアを提供し、標準の「適合」を使用してネットワークをトレーニングするだけですか、それとも何か特別なことをする必要がありますか? 後者の場合、Theano バックエンドでどのように行うのですか? (上記の例では TensorFlow を使用しています)。