machine-learning - 機械学習 - さまざまな重要性の特徴から離散的で連続的なソリューションを予測するのに最適なアプローチはどれですか?

Question

最大 N 個の入力を取り、できるだけ頻繁に「正しい」答えを予測する単一の数値を計算する式を考え出す必要があります。各入力は 10 進数値または整数です。出力も 10 進数値です。

途方もない量のデータがあります (無限と考えてください)。いずれの場合も、すべての入力の値と出力の正しい値を取得しています。

特徴はすべて相互に関連しており (つまり、1 つが高い場合、別の特徴が低い可能性が高くなります)、回答との関連性が異なります。

「完全な」式はありませんが、統計的に有意な多くの場合に当てはまる式があるはずです。私が「最良の」ソリューションを持っていた場合、それは非線形で離散的である可能性があります。ただし、これは 1 回限りの計算です。

この種の機能を取得し、複雑でややランダムなデータを表す正確なモデルを作成するには、どの機械学習ソリューションが最適でしょうか?

編集：さらに調査を行うと、あらゆる種類の線形回帰が失敗するようです。ニューラルネットワークは最良の選択のように見えますが、さまざまな範囲でさまざまな式を持つこの「離散」関数を予測できるかどうかはわかりません。

score 5 · Accepted Answer

無限に近い量のトレーニングおよびテストデータを持つことは、大きな利点です。線形回帰は、説明した不規則な関数にはあまり役に立ちませんが、それを完全に書き留める前に、入力自体ではなく派生フィーチャの回帰を調べたい場合があります。ラジアルバイアス関数は、基本的な N 入力の代わりに、またはそれに加えて便利な場合があります。

ただし、私のアドバイスは、回帰木、特にランダムフォレストを調べることです。

回帰木は基本的に、根から始まり、N 個の入力の 1 つを比較して、たどる分岐を選択する決定木です。これは、線形モデルが関連付けられているツリーの葉に到達するまで続きます。最も単純なケースでは、これは単純に、その葉にたどり着くデータの平均を表す定数値関数かもしれませんが、より複雑な学習アルゴリズムでは、葉で予想される二乗誤差を最小化する葉の線形モデルを選択しようとします ( N 個の入力値のサブセットに対するリッジ回帰など)。

問題に対する回帰ツリーの利点は、ツリーが入力をさまざまな領域に分割し、さまざまな式を適用できることです。十分な領域があれば、線形関数は非常に複雑な関数を近似できます。

回帰木にはいくつかの問題があります。領域を定義する決定境界付近でのモデルの動作は、データでサポートされていない非現実的なジャンプを行う可能性があります。さらに、いくつかの統計上の問題が発生する可能性があります。これらの問題はどちらも、ランダムフォレストを使用することで大幅に軽減されます。

ランダムフォレスト内の各ツリーは、一意のブートストラップデータセットによって作成されます。通常、このブートストラップセットは、トレーニングデータから置換を伴うランダムサンプルを取得することによって作成されますが、独自のケースでは、トレーニングデータの新しいランダムセットを取得してフォレスト内の各ツリーを作成することにより、これを改善できます。次に、ツリーを成長させる際に、各ノードでツリーを分岐する決定変数は、その一意のノードで N 変数のランダムなサブセットに制限されます。フォレスト内の各ツリーは異なるデータセットから作成され、異なるデータに分岐する可能性が高いため、回帰ツリーの弱点が分散されます。予測を行うために、フォレスト内の各ツリーに入力が与えられ、すべてのツリーの結果を平均することによって答えが得られます。これにより、回帰木が持つ可能性のある統計上の問題も回避されます。

ランダムフォレストはよく評価されており、多くのテスト問題で優れた回帰手法の 1 つです。

(Elements of Statistical Learning: Data Mining, Inference and Prediction 2nd ed. - Trevor Hastie、Robert Tibshirani、Jerome Friedman、Springer 2008 を参照してください。)

または、もう少し狭い焦点については、Microsoft テクニカルレポートの Decision Forests for Classication, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning ( http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf ) を参照してください。

machine-learning - 機械学習 - さまざまな重要性の特徴から離散的で連続的なソリューションを予測するのに最適なアプローチはどれですか?

1 に答える 1

Related

Reference