statistics - 遺伝的アルゴリズムを新しいデータに一般化できません

Question

一定期間 (5 年間) にわたって少数の株式 (4) をモデル化するための GA を作成しました。GA がトレーニングデータの最適な解をどれだけ迅速に見つけられるかは印象的ですが、これは主にトレーニングフェーズでオーバーフィットする傾向があるためであることも認識しています。

ただし、いくつかの予防策を講じて、同じ期間の一連の未確認のテスト株について何らかの予測を得ることができると考えていました.

私が取った予防措置の 1 つは、同じ日に複数の株を購入できる場合、GA はリストから 1 つだけを購入し、これをランダムに選択することでした。このランダム性は、過適合を避けるのに役立つと思いましたか?

オーバーフィッティングがまだ発生している場合でも、GA の初期世代にはまだオーバーフィッティングの機会がないため、GA が存在しないはずではありませんか?

注記として、私は、2 つの異なるデータセットに対して最適な出力を生成する完全なパラメーターのセットが存在しないことを示す (私が信じている) ノーフリーランチ定理を認識しています。これをさらに進めると、この無料ランチ定理も一般化を禁止するのでしょうか?

下のグラフはこれを示しています。→青線がGA出力です。->赤い線はトレーニングデータ (前述のランダム性のためにわずかに異なります) -> 黄色い線は、一般化を示さない頑固なテストデータです。実際、これは私が作成できる最もお世辞のグラフです..

y 軸は利益、x 軸はそれぞれの利益 (y 軸上) に従って最悪から最良 (左から右) にソートされたトレーディング戦略です。ここに画像の説明を入力

私がこれまでに受け取った最良のアドバイスのいくつか (seaotternerd に感謝) は、以前の世代に焦点を当て、トレーニング例の数を増やすことです。以下のグラフには、4 つではなく 12 のトレーニングストックがあり、(1,000 ではなく) 最初の 200 世代のみが表示されています。繰り返しますが、これは私が作成できる最も魅力的なチャートです。今回は中程度の選択圧力です。確かに見た目は少し良くなりましたが、素晴らしいものでもありません。赤線はテストデータです。

ここに画像の説明を入力

score 1 · Accepted Answer

オーバーフィッティングの問題は、単一のデータセット内で、一般的なケースで実際に良くなることとオーバーフィッティングを区別するのが非常に難しいことです。多くの点で、これは科学というより芸術に近いものですが、一般的なガイドラインを次に示します。

GA は、あなたがフィットネスに結びつけることを正確に行うことを学びます。ある一連の株の予測が本当に上手になるように指示すると、それが実行されます。ただし、予測するためにさまざまな銘柄を交換し続けると、一般化することに成功する可能性があります。これを行うにはいくつかの方法があります。オーバーフィッティングを削減するためのおそらく最も有望な結果をもたらしたものは、SCALP アルゴリズムのように、母集団に空間構造を課し、異なるセルで異なるテストケースを評価することです。時間ごとにテストケースを切り替えることもできますが、そのようなアプローチでは、より複雑な結果が得られました。
オーバーフィッティングが早い段階で問題になることは少ないはずです。一般に、GA を実行する時間が長いほど、オーバーフィッティングが発生する可能性が高くなります。典型的には、オーバーフィッティングの丸暗記が行われる前に、一般的なルールが最初に学習されると想定する傾向があります。ただし、これが厳密に研究されているのを実際に見たことはないと思います.オーバーフィッティングが最初に発生する一般的なルールを見つけるよりもはるかに簡単なシナリオを想像できました. しかし、それがどれほど一般的かはわかりません。早期に停止すると、GA がより良い一般的なソリューションを見つける能力も低下します。
より大きなデータセット (4 つの株式はそれほど多くない) を使用すると、GA が過適合の影響を受けにくくなります。
ランダム性は興味深いアイデアです。一般的な規則を見つける GA の能力は間違いなく損なわれますが、過適合も減少するはずです。アルゴリズムの詳細を知らなければ、どちらが勝つかを判断するのは困難です。
これは、自由な昼食の定理に関する非常に興味深い考えです。100% 確実ではありませんが、ここではある程度当てはまると思います。一部のデータをより適切に適合させると、必然的に結果が他のデータに適合しにくくなります。ただし、考えられる株式の動作の範囲は広いですが、一般的に考えられるすべての時系列の範囲よりもはるかに狭いです。これが、最適化アルゴリズムを持つことが可能である理由です。私たちが取り組んでいる特定の問題は、可能なデータの空間全体と比較して、比較的密接にクラスター化されたデータを生成する傾向があります。したがって、私たちが実際に気にかけている入力のセット内で、より良くなる可能性があります。一般に、どれだけうまくできるかには何らかの上限があり、データセットの上限に達している可能性があります。

結論: テストケースを変更することが最も有望であると思います (ただし、それは私の主要な研究分野の 1 つであるため偏見があります) が、実装に関しては最も困難な解決策でもあります。したがって、より簡単な修正として、進化を早めに停止するか、データセットを増やすことを試すことができます。

statistics - 遺伝的アルゴリズムを新しいデータに一般化できません

1 に答える 1

Related

Reference