無限に近い量のトレーニングおよびテスト データを持つことは、大きな利点です。線形回帰は、説明した不規則な関数にはあまり役に立ちませんが、それを完全に書き留める前に、入力自体ではなく派生フィーチャの回帰を調べたい場合があります。ラジアル バイアス関数は、基本的な N 入力の代わりに、またはそれに加えて便利な場合があります。
ただし、私のアドバイスは、回帰木、特にランダム フォレストを調べることです。
回帰木は基本的に、根から始まり、N 個の入力の 1 つを比較して、たどる分岐を選択する決定木です。これは、線形モデルが関連付けられているツリーの葉に到達するまで続きます。最も単純なケースでは、これは単純に、その葉にたどり着くデータの平均を表す定数値関数かもしれませんが、より複雑な学習アルゴリズムでは、葉で予想される二乗誤差を最小化する葉の線形モデルを選択しようとします ( N 個の入力値のサブセットに対するリッジ回帰など)。
問題に対する回帰ツリーの利点は、ツリーが入力をさまざまな領域に分割し、さまざまな式を適用できることです。十分な領域があれば、線形関数は非常に複雑な関数を近似できます。
回帰木にはいくつかの問題があります。領域を定義する決定境界付近でのモデルの動作は、データでサポートされていない非現実的なジャンプを行う可能性があります。さらに、いくつかの統計上の問題が発生する可能性があります。これらの問題はどちらも、ランダム フォレストを使用することで大幅に軽減されます。
ランダム フォレスト内の各ツリーは、一意のブートストラップ データ セットによって作成されます。通常、このブートストラップ セットは、トレーニング データから置換を伴うランダム サンプルを取得することによって作成されますが、独自のケースでは、トレーニング データの新しいランダム セットを取得してフォレスト内の各ツリーを作成することにより、これを改善できます。次に、ツリーを成長させる際に、各ノードでツリーを分岐する決定変数は、その一意のノードで N 変数のランダムなサブセットに制限されます。フォレスト内の各ツリーは異なるデータ セットから作成され、異なるデータに分岐する可能性が高いため、回帰ツリーの弱点が分散されます。予測を行うために、フォレスト内の各ツリーに入力が与えられ、すべてのツリーの結果を平均することによって答えが得られます。これにより、回帰木が持つ可能性のある統計上の問題も回避されます。
ランダム フォレストはよく評価されており、多くのテスト問題で優れた回帰手法の 1 つです。
(Elements of Statistical Learning: Data Mining, Inference and Prediction 2nd ed. - Trevor Hastie、Robert Tibshirani、Jerome Friedman、Springer 2008 を参照してください。)
または、もう少し狭い焦点については、Microsoft テクニカル レポートの Decision Forests for Classication, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning ( http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf ) を参照してください。