pandas - 重要な機能を選択してから代入するか、最初に代入してから重要な機能を選択しますか?

Question

多くの機能 (主にカテゴリ機能(はい/いいえ)) と多くの欠損値を含むデータセットがあります。

次元削減の手法の 1 つは、ターゲット属性に対して慎重に構築された大規模なツリーセットを生成し、各属性の使用統計を使用して、最も有益なフィーチャのサブセットを見つけることです。つまり、基本的に、非常に浅いツリーの大規模なセットを生成できます。各ツリーは、属性の総数のごく一部でトレーニングされます。属性が最良の分割として頻繁に選択される場合、保持する有益な機能である可能性が最も高くなります。

また、欠損値を埋めるためにインピューターを使用しています。

私の疑問は、上記の2つの順序がどうあるべきかです。上記の 2 つ (次元削減と代入) のどちらを最初に行うべきで、その理由は?

score -1 · Accepted Answer

数学的な観点からは、常にデータ代入を避ける必要があります(ある意味で - 必要な場合にのみ使用してください)。言い換えれば、欠損値を処理できるメソッドがある場合は、それを使用します (そうでない場合は、データ代入が残されます)。

データの代入はほとんどの場合、非常に偏っています。それは何度も示されているため、20 年ほど前の論文を読んだことさえあると思います。一般に、統計的に正しいデータ代入を行うには、非常に優れた生成モデルを適合させる必要があります。「最も一般的な」、平均値などを代入するだけで、ナイーブベイズと同様の強度のデータに関する仮定が作成されます。

pandas - 重要な機能を選択してから代入するか、最初に代入してから重要な機能を選択しますか?

1 に答える 1

Related

Reference