ここで基本的な疑似コードの概要を探しています。
私の目標は、分類木をゼロからコーディングすることです (私は機械学習を学んでいて、直感を得たいと思っています)。しかし、私のトレーニング データは膨大です。40000 の例と 1000 の機能です。必要な分割数の上限が 2 40000であることを考えると、これらすべての分割されたデータセットを追跡する方法がわかりません。
完全なデータセットから始めて、1 つの分割を取得するとします。次に、分割の片側に落ちた 20000 ほどの例をデータセットに保存し、分割アルゴリズムを再実行して、そのデータセットの貪欲な分割を見つけます。次に、これを続けて、木の一番左の枝に沿って何十回も分割するとします。
左端のすべての分割に満足したら、次に何をしますか? 最大 2 40000 個の個別のサブセットを保存するにはどうすればよいですか? また、テスト例を分類するときに、取得したすべての分割を追跡するにはどうすればよいですか? 私にとって意味をなさないのはコードの構成です。