男性 (M) と女性 (F) の 2 つのレベルを含む変数 GENDER に多くの欠損値があるデータセットがあります。欠落した値をどのように処理しますか? これらの欠損値を処理するさまざまな方法は何ですか。どんな助けでも大歓迎です。
2 に答える
欠損値を推定するには、いくつかの手法があります。私はそのような方法に関する大学のプロジェクトの論文を書いています。
一般的に使用される 5 つの欠損データ代入手法について簡単に説明します。以下では、すべての行がパターン (または観察) であり、すべての列が特徴 (または属性) であるデータセットを考えます。たとえば、 j番目の特徴に欠損値がある特定のパターンを「修正」したいとします。 (位置)。
- パターン除去。
そのようなパターンに少なくとも 1 つの欠損値がある場合、データセットからパターンを削除します。
ただし、欠損値のあるパターンが多数ある場合は、データセット内のパターンの数が大幅に減少し、トレーニング フェーズが不十分になるため、そのようなアプローチはお勧めしません。 - 平均/最頻値アプローチ。パターンの位置j
に欠損値がある場合、 j番目の列の平均 ( j番目の属性が連続の場合) またはモード ( j番目の属性がカテゴリの場合) を取得し、パターンのj番目の平均/モードを置き換えます。位置。明らかに、平均/モード評価では、列jからの非欠損値のみを考慮する必要があります。 - 条件付き平均/最頻値。ラベルがある場合 (つまり、教師あり学習)、前のアプローチを検討できますが、平均値/最頻値の評価では、列 jとまったく同じラベルを持つパターンに属する列j
の (欠落していない) 要素のみを考慮に入れます。修正しようとしているパターン。別のクラスに属するパターンの値を考慮しないため、これは本質的に前の方法を改善します。 - ホットデッキ。特定の非類似度メトリックが与えられると、修正するパターンと、代入される属性 (この場合はj番目
の属性) の欠損値ではない他のすべてのパターンとの間の非類似度を測定できます。最も類似したパターンからj番目の特徴を取得し、修正するパターンのj番目の位置に置き換えます。 - K 最近隣人。これはホットデッキングに似ていますが、最も類似したパターンを考慮する代わりに、 j番目の機能で値が欠落していないK
個 の最も類似したパターンを考慮することができます。次に、これらのKパターンのj番目の特徴の中で最も頻度の高い項目 (モード) を考えます。
K-Nearest NeighborsのK値は、相互検証によって見つけることができます。アプリオリに設定するか、経験則値 ( K = インスタンス数の平方根) を使用できます。
非類似度の尺度は実際にはあなた次第ですが、一般的な選択は HEOM (Heterogeneous Euclidean Overlap Metric) で、こちら(セクション 2.3) にあります。このような非類似度の測定は、欠損値を持つパターンも扱うことができるため、欠損値が大量にあるデータセットではかなり有効です (明らかに、推定したい機能にはありません) 。
代入される機能で値が欠落しているパターンを破棄することは確かに重要です。非類似度測定が、機能jでも値が欠落している最も類似したパターンを返す場合、基本的に欠落している値を別の欠落している値に置き換えています。無意味。この例はホットデッキで機能しますが、 Kに対してもそのような概念を拡張できます。K 最近傍の最も類似したパターン (つまり、最も類似した K 個のパターンの j 番目の特徴の中で最も頻度の高い項目も欠損値である不運なケース) 。