3

Q 学習アルゴリズムを使用する問題を解決するのに助けが必要です。

問題の説明:

ロケットがランダムなパスを取り、時々クラッシュするロケットシミュレーターがあります。ロケットには、オンまたはオフにできる 3 つの異なるエンジンがあります。どのエンジンが作動しているかに応じて、ロケットはさまざまな方向に飛行します。

エンジンOFF/ON機能搭載

ここに画像の説明を入力

タスク:

常に上を向くようにロケットに変わる Q ラーニング コントローラーを構築します。

ロケットの角度を読み取るセンサーを入力として使用できます。

私の解決策:

次の状態があります。

ここに画像の説明を入力

次のアクションもあります。

  • すべてのエンジンをオフ
  • 左エンジンオン
  • 右エンジンオン
  • ミドルエンジンオン
  • 左右に
  • 左と真ん中
  • 右と真ん中

そして、以下の報酬:

角度 = 0、報酬 = 100 他のすべての角度、報酬 = 0

質問:

ここで質問ですが、これは報酬と状態の適切な選択ですか? ソリューションを改善できますか? 他のアングルの報酬が多い方がいいですか?

前もって感謝します

4

2 に答える 2

2

望ましい状態の隣の状態に、より小さな報酬を置いてみてください。これにより、エージェントはより速く立ち上がることを学ぶことができます。

于 2013-07-10T21:00:09.913 に答える