machine-learning - C4.5（J48）デシジョンツリーで欠落している属性値を処理するにはどうすればよいですか？

Question

WekaのC4.5（J48）デシジョンツリーで欠落している機能属性値を処理するための最良の方法は何ですか？欠測値の問題は、トレーニングと分類の両方で発生します。

トレーニングインスタンスから値が欠落している場合、「？」を配置すると想定して正しいですか？機能の価値は？
デシジョンツリーを正常に構築し、Wekaのツリー構造からC++またはJavaで独自のツリーコードを作成できるとします。分類時に、新しいインスタンスを分類しようとしている場合、値が欠落しているフィーチャにどのような値を設定しますか？値が不明な決定ノードを超えてツリーを下るにはどうすればよいですか？

欠測値を処理するには、ナイーブベイズを使用する方がよいでしょうか？私はそれらに非常に小さな非ゼロの確率を割り当てるだけですよね？

score 9 · Accepted Answer

ワシントン大学のペドロドミンゴスのMLコースから：

Pedroが不足している値に対して提案する3つのアプローチは次のとおりですA。

スライドとビデオはここで見ることができます。

score 2 · Accepted Answer

別のアプローチは、欠落している値を「？」のままにし、情報ゲインの計算には使用しないことです。情報取得ステップで無視したため、分類中に不明な値を持つノードはありません。分類については、欠落している値を不明と見なし、その特定の属性の分類中に削除しないでください。

2 に答える 2