0

重複の可能性:
モデル構築時の多くの変数に対する短い数式呼び出し

Rを使用して段階的なロジスティック回帰を実行したい大きなデータフレーム(112変数)があります。glmモデルとモデルのセットアップ方法は知っていますstepAICが、すべての見出しを入力して独立変数。glmモデルに含まれるx変数として各列を認識するように、データフレーム全体を独立変数としてモデルに与える高速な方法はありますか? 私は試した:

ft<-glm(MFDUdep~MFDUind, family=binomial)

しかし、うまくいきませんでした (間違ったデータ型)。MFDUdep と MFDUind はどちらもデータ フレームで、MFDUind111 個の「x」変数とMFDUdep単一の「y」が含まれています。

4

1 に答える 1

7

.数式表記に特殊記号が必要です。また、単一のデータ フレームに応答と予測変数を含めた方がよいでしょう。

試す:

MFDU <- cbind(MFDUdep, MFDUind)
ft <- glm(y ~ ., data = MFDU, family = binomial)

ロープを渡したので、少なくとも首吊りの可能性について警告しなければなりません...

おそらく予測がモデルの目的でない限り、あなたが取っているアプローチは通常推奨されるものではありません。選択した変数の回帰係数は大きく偏っている可能性があるため、これを啓蒙のために使用している場合は、アプローチを再考してください。

また、モデルで 100 以上の項を許可するには、多くの観測が必要になります。

より良い代替手段が存在します。たとえば、一連の係数に対してリッジ、ラッソ、またはその両方 (エラスティック ネット) 制約を可能にするアプローチの 1 つについては、glmnetパッケージを参照してください。これにより、少量の追加バイアスを犠牲にしてモデル エラーを最小限に抑えることができます。

于 2012-12-27T18:21:07.750 に答える