0

私はかなり大きなデータセット (770K レコード、2K 属性、これらの属性のほとんどすべてが二項ですが整数形式) で作業しています。

10 倍の交差検証を使用してデータに決定木を適用したいのですが、いくつか問題があります。

1.決定木 (深さ 10 など) のトレーニングに時間がかかるのはなぜですか? 実際には、ツリーをトレーニングする前にデータを元のサイズの 40% (~320K レコード) に調整します (不均衡であるため) が、それでも多くの時間がかかります。同じパフォーマンスをもたらす他のバージョンのディシジョン ツリーはありますか時間がかかりませんか?(属性を 2 項形式にすると高速になりますか?)

2.決定木のパラメータを最適化するにはどうすればよいですか? X-validation 全体で最適化する必要がありますか?

4

1 に答える 1

1

バイナリ属性を整数としてマークする理由はありますか? 二項属性の誘導は確かに高速です。それ以外の場合、ツリー誘導アルゴリズムは、各ノードの各属性の最適な分割を見つける必要があります。

そのような木を誘発するのにどれくらいの時間がかかりますか? どのアルゴリズムを使用していますか?

パラメーターの最適化について: 各 X 検証ループ内の個別のセットで実行する必要があります。方法の例として、このワークフローを参照してください: http://www.myexperiment.org/workflows/3263.html

于 2013-01-01T15:28:05.343 に答える