0

いくつかの質的予測変数を使用して線形回帰モデルを実行するために使用する大きなデータセットがあります。データセットを WN と呼び、質的変数は OState と DState (米国の州) です。ここでは、WN 内に OState と DState の 62 の一意の値があることがわかります。

> unique(WN$OState)
[1] NY MA PA DE DC VA MD WV NC RI SC NH GA FL AL TN MS ME KY OH IN MI VT IA WI MN SD ND MT CT IL MO KS NE NJ LA AR OK TX CO WY ID UT AZ NM NV CA OR WA
62 Levels: AA AE AK AL AP AR AS AZ CA CO CT DC DE FL FM GA GU HI IA ID IL IN KS KY LA MA MD ME MH MI MN MO MP MS MT NC ND NE NH NJ NM NV NY OH OK OR PA PR PW RI SC SD TN TX UT VA VI VT WA ... WY
> unique(WN$DState)
[1] MA RI NH ME VT CT NY NJ PA DE DC VA MD WV NC SC GA FL AL TN MS KY OH IN MI IA WI MN SD ND MT IL MO KS NE LA AR OK TX CO WY ID UT AZ NM NV CA OR WA
62 Levels: AA AE AK AL AP AR AS AZ CA CO CT DC DE FL FM GA GU HI IA ID IL IN KS KY LA MA MD ME MH MI MN MO MP MS MT NC ND NE NH NJ NM NV NY OH OK OR PA PR PW RI SC SD TN TX UT VA VI VT WA ... WY

現在、回帰モデルを実行して、Rate with Distance、OState、および DState を次のように予測しています。

> WN.LR = lm(WN$Rate~WN$Distance+WN$OState+WN$DState) 

回帰の概要を確認すると、48 個の OState および DState 予測子のみが入力されており、残りの 14 個が欠落していることがわかります。要約出力のごく一部を以下に示します。たとえば、出力に OStateAL がないことがわかります。

> summary(WN.LR)

Call:
lm(formula = WN$Rate ~ WN$Distance + WN$OState + WN$DState)

Residuals:
    Min      1Q  Median      3Q     Max 
-2370.3  -218.4   -18.9   170.8  9105.7 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.208e+03  6.632e+00 182.171  < 2e-16 ***
WN$Distance  1.626e+00  3.111e-03 522.722  < 2e-16 ***
WN$OStateAR  2.000e+02  7.294e+00  27.419  < 2e-16 ***
WN$OStateAZ  1.981e+02  8.372e+00  23.667  < 2e-16 ***
WN$OStateCA  1.056e+02  7.919e+00  13.340  < 2e-16 ***
WN$OStateCO  1.323e+02  7.332e+00  18.043  < 2e-16 ***
WN$OStateCT -2.019e+02  1.827e+01 -11.048  < 2e-16 ***
WN$OStateDC  5.711e+02  2.178e+01  26.223  < 2e-16 ***

一方、OState = "AL" のエンティティを確認すると、6000 行以上あることがわかります。

> WNnew<-subset(WN,OState=="AL")
> nrow(WNnew)
[1] 6213

これについての説明はありますか?

4

2 に答える 2

2

これはエイリアシングが原因である可能性があります (つまり、モデルが過剰に識別されています)。たとえば、マサチューセッツ州は変数DStateOState変数の両方でレベルであるため、両方の処理での影響を分離することはできないと思います。

于 2013-03-12T21:31:04.403 に答える
1

モデルが構築されたときに、警告、つまり係数リスト内のすべてのNAを読んでいませんでした。実行すると、エイリアス用語が一覧表示されます。

WN.LR  # always look at the output of `lm` as well as that of `summary.lm`

...そしてあなたはただ出力を読むことに失敗しました。あなたが考えるかもしれないのは、DStateがOStateと同じであるOStateに「同じ」レベルを作成し、それが違いのないすべての状態をキャプチャできるようにすることです。

于 2013-03-12T22:56:54.960 に答える