machine-learning - Qlearning - 状態と報酬の定義

Question

Q 学習アルゴリズムを使用する問題を解決するのに助けが必要です。

問題の説明:

ロケットがランダムなパスを取り、時々クラッシュするロケットシミュレーターがあります。ロケットには、オンまたはオフにできる 3 つの異なるエンジンがあります。どのエンジンが作動しているかに応じて、ロケットはさまざまな方向に飛行します。

エンジンOFF/ON機能搭載

ここに画像の説明を入力

タスク：

常に上を向くようにロケットに変わる Q ラーニングコントローラーを構築します。

ロケットの角度を読み取るセンサーを入力として使用できます。

私の解決策：

次の状態があります。

ここに画像の説明を入力

次のアクションもあります。

そして、以下の報酬：

角度 = 0、報酬 = 100 他のすべての角度、報酬 = 0

質問：

ここで質問ですが、これは報酬と状態の適切な選択ですか? ソリューションを改善できますか? 他のアングルの報酬が多い方がいいですか？

前もって感謝します

score 2 · Accepted Answer

望ましい状態の隣の状態に、より小さな報酬を置いてみてください。これにより、エージェントはより速く立ち上がることを学ぶことができます。

2 に答える 2