data-mining - 決定木と単純ベイズ分類器

Question

私はさまざまなデータマイニング手法について調査を行っていますが、理解できないものに出会いました。誰かが素晴らしいだろうという考えを持っているなら。

デシジョンツリーを使用する方が適切な場合と、単純ベイズ分類器を使用する方が適切な場合はどれですか?

特定の場合にそれらのいずれかを使用するのはなぜですか? そして、別のケースで他の？（アルゴリズムではなく、その機能を見ることによって）

これについて説明や参考文献はありますか？

score 161 · Accepted Answer

デシジョンツリーは非常に柔軟で、理解しやすく、デバッグも容易です。それらは、分類問題と回帰問題で機能します。したがって、(赤、緑、上、下) のようなカテゴリ値を予測しようとしている場合、または 2.9、3.4 などの連続値を予測しようとしている場合、デシジョンツリーは両方の問題を処理します。おそらくデシジョンツリーの最も優れた点の 1 つは、必要なのはデータのテーブルだけであり、事前の設計作業を行う必要なく、そのデータから直接分類器を構築することです。ある程度、重要でないプロパティは分割として選択されず、最終的には削除されるため、ナンセンスに対して非常に寛容です。開始するには、それを設定して忘れてください。

ただし、欠点。単純なデシジョンツリーはトレーニングデータに過適合する傾向があるため、他の手法では通常、ツリーの剪定を行い、剪定手順を調整する必要があります。初期の設計コストはかかりませんでしたが、ツリーのパフォーマンスを調整することでそのコストを回収できます。また、単純な決定木はデータを正方形に分割するため、物事の周りにクラスターを構築することは、データのクラスターを包含するために多くを分割する必要があることを意味します. 多くを分割すると、複雑なツリーにつながり、過剰適合する可能性が高くなります。背の高い木は剪定されるため、データ内のいくつかの特徴の周りにクラスターを構築することはできますが、剪定プロセスに耐えられない可能性があります。代理分割のような他の手法がありますこれにより、一度に複数の変数に沿って分割し、水平でも垂直でもない空間に分割を作成できます (0 < 勾配 < 無限大)。クールですが、ツリーが理解しにくくなり始め、これらのアルゴリズムを実装するのが複雑になります。ブースティングやランダムフォレストデシジョンツリーなどの他の手法は非常にうまく機能し、デシジョンツリーから最高のパフォーマンスを得るにはこれらの手法が不可欠であると考える人もいます。繰り返しますが、これにより、理解してツリーを調整するために使用するものが増え、実装するものが増えます。結局、アルゴリズムに追加するほど、それを使用するための障壁が高くなります。

Naive Bayes では、手動で分類を作成する必要があります。大量の表形式のデータを投げて、分類に使用する最適な機能を選択させる方法はありません。どの機能が重要かを選択するのはあなた次第です。デシジョンツリーは、表形式のデータから最適な機能を選択します。Naive Bayes が機能を選択する方法があれば、決定木をそのように機能させるのと同じ手法を使用することに近づくでしょう。この事実を踏まえると、Naive Bayes を他の統計手法と組み合わせて、どの機能が最適に分類され、デシジョンツリーを使用できるかを判断するのに役立つ可能性があることを意味します。Naive Bayes は、連続分類器として応答します。それをカテゴリ予測に適応させる手法がありますが、(A 90%、B 5%、C 2.5% D 2. 5%) ベイズは非常にうまく機能し、過適合もほとんどないため、ネットワークを切り詰めたり処理したりする必要はありません。これにより、実装がより簡単なアルゴリズムになります。ただし、すべての確率が1000倍になるため、デバッグして理解するのが難しくなります。そのため、期待どおりに動作していることをテストするように注意する必要があります。Naive Bayes は、トレーニングデータにすべての可能性が含まれていない場合に非常にうまく機能するため、データ量が少ない場合に非常に適しています。決定木は、Naive Bayes と比較して、大量のデータでより適切に機能します。多くの場合、期待どおりに動作していることをテストするように注意する必要があります。Naive Bayes は、トレーニングデータにすべての可能性が含まれていない場合に非常にうまく機能するため、データ量が少ない場合に非常に適しています。決定木は、Naive Bayes と比較して、大量のデータでより適切に機能します。多くの場合、期待どおりに動作していることをテストするように注意する必要があります。Naive Bayes は、トレーニングデータにすべての可能性が含まれていない場合に非常にうまく機能するため、データ量が少ない場合に非常に適しています。決定木は、Naive Bayes と比較して、大量のデータでより適切に機能します。

Naive Bayes は、ロボット工学やコンピュータービジョンでよく使用され、これらのタスクで非常にうまく機能します。このような状況では、ディシジョンツリーのパフォーマンスは非常に低くなります。何百万ものポーカーハンドを調べてポーカーハンドを認識するように決定木を教えても、ロイヤルフラッシュとクワッドはほとんど発生せず、しばしば切り捨てられるため、非常にうまくいきません。結果のツリーから剪定された場合、それらの重要なハンドが誤って分類されます (上記の背の高いツリーの説明を思い出してください)。これを使って癌を診断しようとしているかどうか考えてみてください。がんは集団内で大量に発生するわけではなく、排除される可能性が高くなります。幸いなことに、これは重みを使用して処理できるため、勝ったハンドまたは癌を持っているハンドを負けたハンドまたは癌を持っていないハンドよりも高く重み付けし、ツリーを押し上げて剪定しないようにします。

デシジョンツリーは、どの入力が出力の最良の予測子であるかを教えてくれるので、たいていの場合、特定の入力と出力の間に統計的な関係があるかどうか、およびその関係がどれほど強いかを判断するのに役立ちます。多くの場合、結果のデシジョンツリーは、それが記述する関係よりも重要ではありません。したがって、デシジョンツリーは、データについて学習する際に調査ツールとして使用できるため、他の分類器を構築できます。

問題を解決するためにデシジョンツリーとナイーブベイのどちらを使用するかで迷っている場合は、多くの場合、それぞれをテストするのが最善です。決定木を構築し、単純ベイズ分類器を構築してから、トレーニングデータと検証データを使用して銃撃戦を行います。これまでで最高のパフォーマンスを発揮するものは、フィールドでより優れたパフォーマンスを発揮する可能性が高くなります。また、K 最近傍 (KNN) 予測子に対してこれらのそれぞれをキャストすることは常に良い考えです。これは、k 最近傍がいくつかの状況でそれらの両方を上回ることが示されているためです。KNN は実装して使用する簡単なアルゴリズムです。KNN のパフォーマンスが他の 2 つよりも優れている場合は、それを使用します。

いくつかの情報源:

CART ベースの決定木に関するマニュアル。この本は、CART アルゴリズムをカバーしていますが、決定木、重み、欠損値、代理分割、ブースティングなどについても説明しています。

CART のより穏やかなイントロ https://www.youtube.com/watch?v=p17C9q2M00Q

アルゴリズムの比較 - KNN、デシジョンツリー、C4.5、および SVM がほとんどのテストで非常にうまく機能することに注意してください。 http://www4.ncsu.edu/~arezaei2/paper/JCIT4-184028_Camera%20Ready.pdf

アルゴリズムの別の比較 - ブーストデシジョンツリーとランダムがリストのトップにあり、KNN が中央にあります: http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml06.pdf

さまざまな手法の別の優れた概要: http://www.quora.com/What-are-the-advantages-of-different-classification-algorithms

data-mining - 決定木と単純ベイズ分類器

1 に答える 1

Related

Reference