performance - 複雑さやパフォーマンスを比較したさまざまな決定木アルゴリズム

Question

私はデータマイニング、より正確には決定木に関する研究を行っています。

決定木を構築するための複数のアルゴリズムがあるかどうか (または 1 つだけですか?)、次のような基準に基づいてどれが優れているかを知りたいです。

パフォーマンス
複雑
意思決定の誤り
もっと。

score 93 · Accepted Answer

ディシジョンツリーの実装は、主に次の軸に沿って異なります。

分割基準(つまり、「分散」の計算方法)
回帰(連続変数、スコアなど) および分類(離散変数、クラスラベルなど) のモデルを構築するかどうか
オーバーフィッティングを排除/削減する手法
不完全なデータを処理できるかどうか

主なディシジョンツリーの実装は次のとおりです。

ID3または Iterative Dichotomizer は、Ross Quinlan によって開発された 3 つの決定木の実装の最初のものでした (Quinlan, JR 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81-106.)。
CARTまたはClassification And Regression Treesは、Decision Tree という用語の一般的な頭字語としてよく使用されますが、明らかにより具体的な意味を持っています。つまり、CART の実装は C4.5 と非常によく似ています。注目すべき違いの 1 つは、CART がデータに再帰的に適用される数値分割基準に基づいてツリーを構築するのに対し、C4.5 にはルールセットs を構築する中間ステップが含まれていることです。
C4.5、クインランの次のイテレーション。新しい機能 (対 ID3) は次のとおりです。(i) 連続機能と離散機能の両方を受け入れます。(ii) 不完全なデータポイントを処理します。(iii) 通常「プルーニング」として知られる (非常に巧妙な) ボトムアップ手法によって、オーバーフィッティングの問題を解決します。(iv) トレーニングデータを構成する特徴に異なる重みを適用できます。これらのうち、最初の3 つは非常に重要です。選択する DT 実装には、3 つすべてが含まれていることをお勧めします。4 番目 (微分重み付け) はそれほど重要ではありません
C5.0、最新の Quinlan イテレーション。この実装は特許で保護されており、その結果、(商用ソフトウェアパッケージ以外で) 実装されることはおそらくほとんどありません。私は C5.0 の実装を自分でコーディングしたことがない (ソースコードを見たことさえない) ため、C5.0 と C4.5 の十分な情報に基づいた比較を提供することはできません。その発明者 (Ross Quinlan) が主張する改良点について、私は常に懐疑的でした。たとえば、彼は、C4.5 よりも「数桁」高速であると主張しています。他の主張も同様に広範です (「メモリ効率が大幅に向上」) などです。 2 つの手法の比較結果を報告している研究を紹介するだけで、自分で決めることができます。
CHAID (カイ 2 乗自動相互作用検出器) は、実際には、元の ID3 の実装よりも約 6 年先行しています (1980 年に Gordon Kass によって博士論文が発表されました)。私はこの手法について少しずつ知っています。R プラットフォームには、優れたドキュメントを含むCHAIDと呼ばれるパッケージがあります。
MARS (多適応回帰スプライン) は、実際には、MARS の最初の発明者である Salford Systems によって商標登録された用語です。その結果、Salford が販売していないライブラリの MARS クローンは、MARS 以外の名前が付けられています。たとえば、R では、関連する機能は poly-spline ライブラリの polymars です。Matlab と Statistica には、MARS 機能を備えた実装もあります。

CART または C4.5 をお勧めします (ただし、C5.0 や CHAID の機能セットについてはよく知っていますが、C5.0 や CHAID を直接使用した経験はありません)。

C4.5 はOrangeで実装されたディシジョンツリーフレーバーです。CART はsklearnのフレーバーです。どちらも優れた ML ライブラリの優れた実装です。

C4.5 は、範囲(トレーニングデータの連続変数を処理できるため、C4.5 ははるかに広いユースケーススペクトルを持つ) とモデルの品質の両方の点で、ID3 を超える大きな一歩です。

おそらく、C5.0 と C4.5 の最も重要な改善点は、ブーストツリーのサポートです。Orange の DT 実装には、DT (ブーステッドツリーとランダムフォレスト) のアンサンブルサポートが含まれています。ここでは、アンサンブルのサポートが C4.5 アルゴリズムに追加されました。sklearn は、さまざまなランダムフォレストとブースティングメソッドも備えています。

performance - 複雑さやパフォーマンスを比較したさまざまな決定木アルゴリズム

1 に答える 1

Related

Reference