私の答えには、(1) 制御理論、(2) センシング、(3) センシングとアクションの融合の 3 つの側面があります。
制御理論
問題に対する答えは、使用している制御スキームの種類によって部分的に異なります。それはフィードフォワード制御ですか、それともフィードバック制御ですか? 後者の場合、地形情報以外にどのようなシミュレートされたリアルタイム センサーがありますか?
単に地形情報を取得して制御戦略に組み込むだけでは、フィードバック制御を使用しているとは言えません。このような情報を使用して、あなたが説明した問題に最も近いと思われるフィードフォワード戦略を選択することができます。
センシング
フィードフォワードまたはフィードバック制御を使用しているかどうかに関係なく、制御システムの入力空間として地形情報やその他の感覚データを表す必要があります。GA ベースのモーション コントローラーのトレーニングの一部として、特徴検出器を学習するために、広範囲のランダムな地形を介してスケルトンを移動する必要があります。特徴検出器は、入力空間を領域に分割することによって、地形シナリオを分類します。これは、何が最善の行動方針であるか、つまり、どの制御動作を採用するかを決定するために重要です。
入力空間を最適に表現する方法は、シミュレーション用の地形情報の粒度のレベルによって異なります。あるグリッド スペース内の地形タイプおよび/または障害物の単なる離散スペースである場合は、変換せずに GA に直接提示できる場合があります。ただし、データが地形タイプや任意の範囲/方向の障害物などの連続空間にある場合は、空間関係を推測しやすい空間にデータを変換する必要がある場合があります。ガウスおよびファジー分類器は後者のアプローチに役立ちますが、離散値コーディングも機能します。
センシングとアクションの融合
上記の入力空間エンコーディング アプローチの 1 つを使用すると、動作選択検索空間とモーション コントロール検索空間 を接続する方法についていくつかのオプションがあります。
2 つの空間を 2 つの学習問題に分け、別の GA を使用して標準の多層パーセプトロン ニューラル ネットワークのパラメーターを進化させます。後者は、(おそらく変換された) センサー データを入力として、一連のスケルトン ビヘイビアーを出力として持ちます。バックプロパゲーションやその他の ANN 学習方法を使用してネットワークの重みを学習する代わりに、GA はいくつかのフィットネス関数を使用して、一連のシミュレートされた試行にわたってパラメーターを進化させることができます。 B はポイント A から始まります。これは、世代を重ねるごとに、完全にランダムな行動の選択から、より協調的で有用なものへと進化するはずです。
上記 (1) で説明した多層パーセプトロン ネットワークを既存の GA ベースのコントローラー フレームワークにリンクすることにより、2 つの探索空間 (動作選択とスケルトン モーター制御) を結合し、スケルトン動作セットをリンクとして使用します。進化するパラメーター スペースは、ニューラル ネットワークの重みと、既存のコントローラー パラメーター スペースの両方になります。NSGA-II アルゴリズムなどの多目的遺伝的アルゴリズムを使用していると仮定すると(複数のフィットネス関数があるため)、フィットネス関数は安定性、速度、エントロピーの最小化、関節への力などになります。行動選択ポリシーを学習することを目的としたいくつかのフィットネス関数。たとえば、一定期間内に点 A から点 B に向かって移動した距離。
このアプローチと上記 (1) の違いは、2 つの問題が分離されているのではなく、結合されている場合にパラメーター空間がよりよく調査される可能性があるため、動作のより良い調整とより細かい運動制御の両方を学習できる可能性があることです。 . 欠点は、妥当なパラメーター ソリューションに収束するのに非常に長い時間がかかる可能性があることです。また、2 つの学習問題が別々に保持されている場合と同様に、モーター制御のすべての側面が学習されるとは限りません。
モーター制御の問題に対する進化したソリューションを既に実行していることを考えると、アプローチ (1) を使用して別の GA で動作選択モデルを学習する方がよいでしょう。また、後者のモデルを学習するために、上で説明したハイブリッド GA-ANN スキームに代わる多くの方法があります。これには、モデルをまったく学習せず、代わりに私からの別の回答で説明されているようにパス プランニング アルゴリズムを使用することが含まれます。あなたはすでに GA ベースの機械学習に精通しているため、このアプローチを提案しただけです。
行動選択問題は、機械学習と自律型ロボティクスの両方でしっかりと研究されている分野です。現在の問題に対するより良い視点と洞察を得るために、このトピック自体を読むことはおそらく十分に価値があり、このレンズを通して問題を見ることで、これまでに提案したものよりも簡単な戦略を考案できるかもしれません。パラダイム。