machine-learning - ニューラルネットワークによる強化学習

Question

私は 3 つの異なるアクション (A & B & Nothing) をそれぞれ異なるパワー (例: A100 A50 B100 B50) で持っています。最良の結果を得るために、これらのアクションを NN にフィードする最良の方法は何でしょうか?

1- 入力 1 に A/B をフィードし、入力 2 にアクションパワー 100/50/何も入力しない

2- A100/A50/Nothing を入力 1 にフィードし、B100/B50/Nothing を入力 2 にフィードします。

3- A100/A50 を入力 1 にフィードし、B100/B50 を入力 2 にフィードし、Nothing フラグを入力 3 にフィードします。

4- また、100 & 50 をフィードするか、2 & 1 に正規化しますか?

1 つの方法を選択する理由が必要です。任意の提案をお勧めします

ありがとう

score 1 · Accepted Answer

何を学びたいですか？出力はどうあるべきですか？入力は使用されたアクションだけですか? 環境のモデルを学習している場合、それは確率分布で表されます。

P(次の状態|状態、アクション)

アクションごとに個別のモデルを使用するのが一般的です。これにより、入力と出力の間のマッピングがより簡単になります。入力は状態特徴のベクトルです。出力は、次の状態の特徴のベクトルです。使用されるアクションは、モデルによって暗示されます。

状態の特徴は、ビットとしてエンコードできます。アクティブビットは機能の存在を示します。

これにより、決定論的モデルが学習されます。次の状態の確率モデルを学習する良い方法が何かわかりません。1 つの可能性は、確率ニューロンを使用することです。

1 に答える 1