一部の NA を特定の値に割り当てた後、データ フレームのクリーニングに問題があります。まず、NA が含まれていない credit_clean という data.frame があります。このように見えます。
str(credit_clean)
'data.frame': 150000 obs. of 6 variables:
$ default : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ...
$ age : int 45 40 38 30 49 74 57 39 27 57 ...
$ debtratio : num 0.803 0.1219 0.0851 0.036 0.0249 ...
$ balance_limits: num 0.766 0.957 0.658 0.234 0.907 ...
$ loans : int 6 0 0 0 1 1 3 0 0 4 ...
$ past60_90 : int 0 0 0 0 0 0 0 0 0 0 ...
次に、df のさまざまな列で、外れ値に NA を割り当てます。
credit_clean$balance_limits[credit_clean$balance_limits >= 5] <- NA
credit_clean$debtratio[credit_clean$debtratio >= 5] <- NA
credit_clean$loans[credit_clean$loans >= 15] <- NA
NA 値を削除して、credit_cl という名前の新しい df を作成しました。新しい df には 120005 の観測があり、NA はありません。
credit_cl <- credit_clean[complete.cases(credit_clean), ]
str(credit_cl)
'data.frame': 120005 obs. of 6 variables:
$ default : num 1 0 0 0 0 0 0 0 0 0 ...
$ age : int 45 40 38 30 49 74 39 57 30 51 ...
$ debtratio : num 0.803 0.1219 0.0851 0.036 0.0249 ...
$ balance_limits: num 0.766 0.957 0.658 0.234 0.907 ...
$ loans : int 6 0 0 0 1 1 0 4 0 2 ...
$ past60_90 : int 0 0 0 0 0 0 0 0 0 0 ...
ここで問題が発生します。線形回帰を使用して適合および予測しようとすると、何も実行されず、エラーも表示されません。ライブラリ(woe)からiv.mult()と呼ばれる情報値関数を使用しようとすると、この問題も発生します。
library(woe)
iv.mult(credit_cl,"default", summary = TRUE)
そのときRは何もしないので、データフレームは私が使用した他のdfと同じように見えるので、間違いが起こっているかどうかはわかりません。
R バージョン 3.1.3 (2015-03-09) を使用しています -- RStudio バージョン 0.99.891 の「Smooth Sidewalk」