1

一部の NA を特定の値に割り当てた後、データ フレームのクリーニングに問題があります。まず、NA が含まれていない credit_clean という data.frame があります。このように見えます。

str(credit_clean)
'data.frame':   150000 obs. of  6 variables:
 $ default       : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ...
 $ age           : int  45 40 38 30 49 74 57 39 27 57 ...
 $ debtratio     : num  0.803 0.1219 0.0851 0.036 0.0249 ...
 $ balance_limits: num  0.766 0.957 0.658 0.234 0.907 ...
 $ loans         : int  6 0 0 0 1 1 3 0 0 4 ...
 $ past60_90     : int  0 0 0 0 0 0 0 0 0 0 ...

次に、df のさまざまな列で、外れ値に NA を割り当てます。

credit_clean$balance_limits[credit_clean$balance_limits >= 5] <- NA
credit_clean$debtratio[credit_clean$debtratio >= 5] <- NA
credit_clean$loans[credit_clean$loans >= 15] <- NA

NA 値を削除して、credit_cl という名前の新しい df を作成しました。新しい df には 120005 の観測があり、NA はありません。

credit_cl <- credit_clean[complete.cases(credit_clean), ]
str(credit_cl)
'data.frame':   120005 obs. of  6 variables:
 $ default       : num  1 0 0 0 0 0 0 0 0 0 ...
 $ age           : int  45 40 38 30 49 74 39 57 30 51 ...
 $ debtratio     : num  0.803 0.1219 0.0851 0.036 0.0249 ...
 $ balance_limits: num  0.766 0.957 0.658 0.234 0.907 ...
 $ loans         : int  6 0 0 0 1 1 0 4 0 2 ...
 $ past60_90     : int  0 0 0 0 0 0 0 0 0 0 ...

ここで問題が発生します。線形回帰を使用して適合および予測しようとすると、何も実行されず、エラーも表示されません。ライブラリ(woe)からiv.mult()と呼ばれる情報値関数を使用しようとすると、この問題も発生します。

library(woe)
iv.mult(credit_cl,"default", summary = TRUE)

そのときRは何もしないので、データフレームは私が使用した他のdfと同じように見えるので、間違いが起こっているかどうかはわかりません。

R バージョン 3.1.3 (2015-03-09) を使用しています -- RStudio バージョン 0.99.891 の「Smooth Sidewalk」

4

0 に答える 0