デシジョンツリーJ48の例で、剪定されたツリーと剪定されていないツリーを言う場合、違いは何ですか?
3 に答える
剪定されていない木は大きくなります。基本的に、ツリーは実装されたアルゴリズムに従って作成され、プルーニングが有効になっている場合、追加の手順で、パフォーマンスにあまり影響を与えずに削除できるノード/ブランチを確認します。
剪定の背後にある考え方は、ツリーを理解しやすくするだけでなく、トレーニングデータに過剰適合するリスクを減らすことです。つまり、トレーニングデータを(ほぼ)完全に分類できますが、基本的な概念を学習する代わりに、ツリーがトレーニングデータに固有のプロパティを学習したため、他には何もありません。
ラースの答えに以下を付け加えたいと思います。次のリンクから取得
多くのアルゴリズムは、結果を「整理」または単純化しようとします。剪定は、より少ない、より簡単に解釈される結果を生成します。さらに重要なことに、剪定は、潜在的な過剰適合を修正するためのツールとして使用できます。..。
J48は2つの剪定方法を採用しています。
1つ目は、サブツリー置換として知られています。これは、決定木のノードをリーフに置き換えることができることを意味します。基本的に、特定のパスに沿ったテストの数を減らします。このプロセスは、完全に形成されたツリーの葉から始まり、ルートに向かって逆方向に機能します。
J48で使用される2番目のタイプの剪定は、サブツリーの発生と呼ばれます。この場合、ノードをツリーのルートに向かって上に移動し、途中で他のノードを置き換えることができます。サブツリーの作成は、多くの場合、決定木モデルにほとんど影響を与えません。オプションの有用性を予測する明確な方法がない場合がよくありますが、誘導プロセスに時間がかかる場合は、オプションをオフにしてみることをお勧めします。これは、サブツリーの生成が計算上複雑になる可能性があるためです。
Wekaが機械学習スイートであることを考えると、彼らが言及しているのは次のように聞こえます。
http://en.wikipedia.org/wiki/Pruning_(decision_trees)
要するに、決定木の剪定は、あまり利益をもたらさない可能性のある決定の除去であるように思われます。
しかし、私はウェカを使ったことがなく、慣れていません。他の答えを延期し、彼らの言うことが最初に意味をなすかどうかを確認してください。