4

Rでいくつかの線形モデルの結果を分析しようとしています。特に、lmオブジェクトの要約で独立変数について報告されたp値に興味があります(変数の関連性を比較するより洗練された方法があることを知っています)しかし、過去のいくつかの比較により、予備分析ではこのp値で十分であると確信しました)。これらの p 値は、数式で変数が指定されている順序に依存していないと確信していたので (たとえば、anova を使用する場合はそうではありません)、取得している偽のデータの結果に困惑しています。 :

> x<-rnorm(100)
> y <- 2*x
> xJ <- jitter(x)
> lm1 <- lm(y~x)
> lm2 <- lm(y~x+xJ)
> lm3 <- lm(y~xJ+x)
> summary(lm1)$coefficients
                 Estimate   Std. Error       t value  Pr(>|t|)
(Intercept) -2.220446e-17 4.064501e-17 -5.463023e-01 0.5860998
x            2.000000e+00 4.037817e-17  4.953172e+16 0.0000000
> summary(lm2)$coefficients
                Estimate   Std. Error      t value  Pr(>|t|)
(Intercept) 0.000000e+00 4.271540e-17 0.000000e+00 1.0000000
x           2.000000e+00 3.534137e-13 5.659091e+12 0.0000000
xJ          4.147502e-13 3.534140e-13 1.173553e+00 0.2434475
> summary(lm3)$coefficients
                 Estimate   Std. Error       t value      Pr(>|t|)
(Intercept) -1.594538e-18 5.512644e-21 -2.892511e+02 3.147977e-144
xJ          -3.531641e-16 4.560990e-17 -7.743146e+00  9.391428e-12
x            2.000000e+00 4.560986e-17  4.385017e+16  0.000000e+00

私のエラーはどこですか?

ありがとう

4

1 に答える 1

2

これについてもう少し考えてみると、奇妙な浮動小数点の問題に加えて、係数の不安定性の原因は、とがほぼ完全に相関しているという事実に起因する多重共線性であると思います。分散インフレ要因の簡単なテストを行う:xxJ

library(car)
vif(lm2)
        x        xJ 
103233533 103233533

VIF が 5 を超える場合は、一般的に確認する必要があると見なされるため、この場合、係数が多少変動することは驚くべきことではありません。

于 2013-02-11T23:00:06.510 に答える