多くの機能 (主にカテゴリ機能(はい/いいえ)) と多くの欠損値を含むデータセットがあります。
次元削減の手法の 1 つは、ターゲット属性に対して慎重に構築された大規模なツリー セットを生成し、各属性の使用統計を使用して、最も有益なフィーチャのサブセットを見つけることです。つまり、基本的に、非常に浅いツリーの大規模なセットを生成できます。各ツリーは、属性の総数のごく一部でトレーニングされます。属性が最良の分割として頻繁に選択される場合、保持する有益な機能である可能性が最も高くなります。
また、欠損値を埋めるためにインピューターを使用しています。
私の疑問は、上記の2つの順序がどうあるべきかです。上記の 2 つ (次元削減と代入) のどちらを最初に行うべきで、その理由は?