Wekaでのテスト結果がありますが、一部のデータセットでは、J48とdecisionStumpをアルゴリズムとして使用した場合に大きな違いはありません。
精度(正解率)で比較した場合、J48アルゴリズムがDecisionStumpアルゴリズムと統計的に有意な差がないのはなぜですか?アルゴリズムやデータの構造を調べることで関係を見つけることができますか?
Wekaでのテスト結果がありますが、一部のデータセットでは、J48とdecisionStumpをアルゴリズムとして使用した場合に大きな違いはありません。
精度(正解率)で比較した場合、J48アルゴリズムがDecisionStumpアルゴリズムと統計的に有意な差がないのはなぜですか?アルゴリズムやデータの構造を調べることで関係を見つけることができますか?
DecisionStumpは、他の分類器の非常に基本的な構成要素となることを目的としていますが、データが単純な分類器で適切にモデル化されている場合、J48はより適切な賢い答えを見つけることができません。これの退化したケースは次のとおりです。
1)実際には予測子の1つが正しい答えを完全に予測するため、DecisionStumpは常に正しい答えを生成します。
2)すべての予測子は完全に役に立たない。この場合、DecisionStumpは他のすべてのものと何ら変わりはありません。
あるモデルが他のモデルよりも見事に優れているという研究を見続けているので、私はまったく驚いていません。たとえば、 http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.48.6753の要約を参照してください。通常、ロジスティック回帰は「十分に良い」分類器の1つです。