1
  • 私はRL&NNとのプロジェクトに取り組んでいます
  • ニューラルネットワークに供給されるアクションベクトル構造を決定する必要があります..

私は 3 つの異なるアクション (A & B & Nothing) をそれぞれ異なるパワー (例: A100 A50 B100 B50) で持っています。最良の結果を得るために、これらのアクションを NN にフィードする最良の方法は何でしょうか?

1- 入力 1 に A/B をフィードし、入力 2 にアクション パワー 100/50/何も入力しない

2- A100/A50/Nothing を入力 1 にフィードし、B100/B50/Nothing を入力 2 にフィードします。

3- A100/A50 を入力 1 にフィードし、B100/B50 を入力 2 にフィードし、Nothing フラグを入力 3 にフィードします。

4- また、100 & 50 をフィードするか、2 & 1 に正規化しますか?

1 つの方法を選択する理由が必要です。任意の提案をお勧めします

ありがとう

4

1 に答える 1

1

何を学びたいですか?出力はどうあるべきですか?入力は使用されたアクションだけですか? 環境のモデルを学習している場合、それは確率分布で表されます。

P(次の状態|状態、アクション)

アクションごとに個別のモデルを使用するのが一般的です。これにより、入力と出力の間のマッピングがより簡単になります。入力は状態特徴のベクトルです。出力は、次の状態の特徴のベクトルです。使用されるアクションは、モデルによって暗示されます。

状態の特徴は、ビットとしてエンコードできます。アクティブ ビットは機能の存在を示します。

これにより、決定論的モデルが学習されます。次の状態の確率モデルを学習する良い方法が何かわかりません。1 つの可能性は、確率ニューロンを使用することです。

于 2010-05-26T20:54:35.123 に答える