組み合わせ最適化における検索アルゴリズムのパラメータの適応パラメータ制御 (オンライン学習)に関するアイデア/経験/参考文献/キーワードを探しています。
もう少し詳しく:
私は、難しい組み合わせ最適化問題の最適化を担当するフレームワークを持っています。これは、反復的に使用されるいくつかの「小さなヒューリスティック」の助けを借りて行われます (大規模な近隣検索、破棄して再作成するアプローチ)。これらの「小さなヒューリスティック」のすべてのアルゴリズムは、ヒューリスティック ロジックをある程度制御しているいくつかの外部パラメーターを使用しています (現時点では、ランダムな値のみ; ある種のノイズ; 検索を多様化します)。
ここで、これらのパラメーターを収束を改善する方法で、可能な限り一般的に選択するための制御フレームワークが必要です。これにより、パラメーター制御を変更せずに新しいヒューリスティックを後で追加できるようになります。
少なくとも 2 つの一般的な決定事項があります。
- A: 次の反復で使用されるアルゴリズムのペア (1 つの破棄アルゴリズムと 1 つの再構築アルゴリズム) を選択します。
- B: アルゴリズムのランダム パラメータを選択します。
唯一のフィードバックは、新しく見つかったソリューションの評価関数です。それが強化学習の話題につながります。それは正しい方向ですか?
実際には学習のような行動ではありませんが、現時点での単純化されたアイデアは次のとおりです。
- A: 反復中に収集されたパフォーマンス値に応じたルーレット ホイールの選択 (近い過去は古いものよりも価値があります)。したがって、ヒューリスティック 1 がすべての新しいグローバル ベスト ソリューションを見つけた場合 -> これを選択する可能性が高くなります。
- B: まだわかりません。おそらく、(0,1) の範囲でいくつかの不均一なランダム値を使用することが可能であり、私は変化の勢いを集めています。したがって、ヒューリスティック 1 が前回 alpha = 0.3 を使用し、新しい最適解が見つからなかった場合、0.6 を使用して新しい最適解が見つかった場合 -> 1 に向かう勢いがある -> 次のランダム値は 0.3 よりも大きくなる可能性があります。考えられる問題:発振!
注意すべきこと: - 1 つの特定のアルゴリズムの良好な収束に必要なパラメーターは劇的に変化する可能性があります。- 特定の破壊/再構築アルゴリズムのペア (結合近傍と呼ばれることもある) には、相乗効果が期待できる可能性があります。そのようなものをどのように認識しますか?それはまだ強化学習エリアにあるのですか?- さまざまなアルゴリズムは、さまざまな数のパラメーターによって制御されます (1 つを取るものもあれば、3 つを取るものもあります)。
アイデア、経験、参考文献 (論文)、キーワード (ML トピック) はありますか?
(b) の決定について、オフライン学習の方法でアイデアがあれば。それについて言及することを躊躇しないでください。
ご意見ありがとうございます。
サーシャ