6

WekaのC4.5(J48)デシジョンツリーで欠落している機能属性値を処理するための最良の方法は何ですか?欠測値の問題は、トレーニングと分類の両方で発生します。

  1. トレーニングインスタンスから値が欠落している場合、「?」を配置すると想定して正しいですか?機能の価値は?

  2. デシジョンツリーを正常に構築し、Wekaのツリー構造からC++またはJavaで独自のツリーコードを作成できるとします。分類時に、新しいインスタンスを分類しようとしている場合、値が欠落しているフィーチャにどのような値を設定しますか?値が不明な決定ノードを超えてツリーを下るにはどうすればよいですか?

欠測値を処理するには、ナイーブベイズを使用する方がよいでしょうか?私はそれらに非常に小さな非ゼロの確率を割り当てるだけですよね?

4

2 に答える 2

9

ワシントン大学のペドロドミンゴスのMLコースから:

Pedroが不足している値に対して提案する3つのアプローチは次のとおりですA

  • Aノードにソートされた他の例の中で最も一般的な値を割り当てますn
  • A同じターゲット値を持つ他の例の中で最も一般的な値を割り当てます
  • ;のp_i可能な各値v_iに確率を割り当てます。例の一部をツリーの各子孫にA割り当てます。p_i

スライドとビデオはここで見ることができます。

于 2012-11-28T04:53:49.743 に答える
2

別のアプローチは、欠落している値を「?」のままにし、情報ゲインの計算には使用しないことです。情報取得ステップで無視したため、分類中に不明な値を持つノードはありません。分類については、欠落している値を不明と見なし、その特定の属性の分類中に削除しないでください。

于 2012-11-28T05:05:06.593 に答える