r - R二項GLMで準分離は重要ですか?

Question

準分離が R 二項 GLM にどのように影響するかを学んでいます。そして、場合によってはどうでもいいと思うようになる。

私の理解では、因子レベルのいくつかの線形結合が故障/非故障を完全に識別できる場合、データには準分離があると言います。

そこで、次のように R で準分離を使用して人工データセットを作成しました。

fail <- c(100,100,100,100)
nofail <- c(100,100,0,100)
x1 <- c(1,0,1,0)
x2 <- c(0,0,1,1)
data <- data.frame(fail,nofail,x1,x2)
rownames(data) <- paste("obs",1:4)

次に、x1=1 および x2=1 (obs 3) の場合、データは常に失敗しません。このデータでは、共変量行列には切片、x1、x2 の 3 つの列があります。

私の理解では、準分離は無限の価値の見積もりをもたらします。したがって、 glm fit は失敗するはずです。ただし、次の glm フィットは失敗しません。

summary(glm(cbind(fail,nofail)~x1+x2,data=data,family=binomial))

結果は次のとおりです。

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.4342     0.1318  -3.294 0.000986 ***
x1            0.8684     0.1660   5.231 1.69e-07 ***
x2            0.8684     0.1660   5.231 1.69e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

標準準分離であっても、エラーは非常に合理的です。準分離がglmフィットの結果に影響を与えていない理由を誰か教えてもらえますか?

score 3 · Accepted Answer

興味深い例を作成しましたが、準分離として説明している状況を実際に調べるモデルをテストしていません。「x1=1 および x2=1 (obs 3) の場合、データは常に失敗する」と言うとき、モデルに交互作用項が必要であることを暗示しています。これにより、「より興味深い」結果が得られることに注意してください。

> summary(glm(cbind(fail,nofail)~x1*x2,data=data,family=binomial))

Call:
glm(formula = cbind(fail, nofail) ~ x1 * x2, family = binomial, 
    data = data)

Deviance Residuals: 
[1]  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.367e-17  1.414e-01   0.000        1
x1           2.675e-17  2.000e-01   0.000        1
x2           2.965e-17  2.000e-01   0.000        1
x1:x2        2.731e+01  5.169e+04   0.001        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.2429e+02  on 3  degrees of freedom
Residual deviance: 2.7538e-10  on 0  degrees of freedom
AIC: 25.257

Number of Fisher Scoring iterations: 22

一般に、2.731e+01 のベータ係数を非常に疑う必要があります: 暗黙のオッズ比 i:

 > exp(2.731e+01)
[1] 725407933166

この作業環境では、Inf と 725,407,933,166 の間に実質的な違いはありません。

r - R二項GLMで準分離は重要ですか?

1 に答える 1

Related

Reference