パッケージを使用してmice
データを代入すると、次の問題が発生します。
NA
トレーニング セットに欠落しているデータを既に帰属させているため、新しい観測値の値を置き換える方法を見つけることができないようです。
例 1
10 個の特徴と 1000 個の観測値を持つデータ フレームのデータを使用してアルゴリズムをトレーニングしました。
このアルゴリズムを使用して新しい観測をどのように予測できますか (データが欠落しています)?
例 2
値を持つデータ フレームがあるとしNA
ます。
V1 V2 V3 R1
1 2 NA 1
1.4 -1 0 0
1.2 NA 0 1
1.6 NA 1 1
1.2 3 1 0
mice
パッケージを使用して欠損値を代入します。
imp <- mice(df, m = 2, maxit = 100, meth = 'pmmm', seed = 12345)
オブジェクトdf
には、代入された値を持つ 2 つのデータフレームがあります。
(dfImp1)
V1 V2 V3 R1
1 2 0.5 1
1.4 -1 0 0
1.2 1.5 0 1
1.6 1.5 1 1
1.2 3 1 0
このデータ フレームを使用して、アルゴリズムをトレーニングできます。
modl <- glm(R1~., (dfImp1), family = binomial)
新しい観測結果の応答を予測したい、例えば:
obs1 <- data.frame(V1 = 1, V2 = 1.4, V3 = NA)
新しい個々の観測値の欠損データ a をどのように帰属させるのですか?