3

R のブート ライブラリの cv.glm 交差検証手順を使用して、ロジスティック回帰のパフォーマンスをテストしています。

私の予測変数のいくつかは要因です。

実行すると、次のエラー メッセージが表示されます。

Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels)
factor color has new levels RED

私は問題を理解していると思います。特定のレベルの因子変数が存在しない観測値のサブセットで回帰モデルをトレーニングしている可能性があります。このモデルが後で予測変数の見えないレベルを含む新しい観測で使用される場合、どのように動作するかわかりません。

これは基本的な CV の問題のように見えるので、ライブラリのドキュメントに何も言及されていないことに驚いています。

ポインタをいただければ幸いです。

4

1 に答える 1

1

コメントで述べたように、これ?errorestipredパッケージの例です。

#cv of a fixed partition of the data
list.tindx <- list(1:100, 101:200, 201:300, 301:400, 401:500,
        501:600, 601:700, 701:768)

errorest(diabetes ~ ., data=PimaIndiansDiabetes, model=lda,
          estimator = "cv", predict = mypredict.lda,
          est.para = control.errorest(list.tindx = list.tindx))

したがって、使用する独自の cv フォールドを指定し、それらが十分にバランスが取れていることを確認して、単一のフォールドで欠落している因子のレベルを避けることができます。

于 2013-06-05T22:11:14.897 に答える