私はかなり大きなデータセット (770K レコード、2K 属性、これらの属性のほとんどすべてが二項ですが整数形式) で作業しています。
10 倍の交差検証を使用してデータに決定木を適用したいのですが、いくつか問題があります。
1.決定木 (深さ 10 など) のトレーニングに時間がかかるのはなぜですか? 実際には、ツリーをトレーニングする前にデータを元のサイズの 40% (~320K レコード) に調整します (不均衡であるため) が、それでも多くの時間がかかります。同じパフォーマンスをもたらす他のバージョンのディシジョン ツリーはありますか時間がかかりませんか?(属性を 2 項形式にすると高速になりますか?)
2.決定木のパラメータを最適化するにはどうすればよいですか? X-validation 全体で最適化する必要がありますか?