Q 学習アルゴリズムを使用する問題を解決するのに助けが必要です。
問題の説明:
ロケットがランダムなパスを取り、時々クラッシュするロケットシミュレーターがあります。ロケットには、オンまたはオフにできる 3 つの異なるエンジンがあります。どのエンジンが作動しているかに応じて、ロケットはさまざまな方向に飛行します。
エンジンOFF/ON機能搭載
タスク:
常に上を向くようにロケットに変わる Q ラーニング コントローラーを構築します。
ロケットの角度を読み取るセンサーを入力として使用できます。
私の解決策:
次の状態があります。
次のアクションもあります。
- すべてのエンジンをオフ
- 左エンジンオン
- 右エンジンオン
- ミドルエンジンオン
- 左右に
- 左と真ん中
- 右と真ん中
そして、以下の報酬:
角度 = 0、報酬 = 100 他のすべての角度、報酬 = 0
質問:
ここで質問ですが、これは報酬と状態の適切な選択ですか? ソリューションを改善できますか? 他のアングルの報酬が多い方がいいですか?
前もって感謝します