準分離が R 二項 GLM にどのように影響するかを学んでいます。そして、場合によってはどうでもいいと思うようになる。
私の理解では、因子レベルのいくつかの線形結合が故障/非故障を完全に識別できる場合、データには準分離があると言います。
そこで、次のように R で準分離を使用して人工データセットを作成しました。
fail <- c(100,100,100,100)
nofail <- c(100,100,0,100)
x1 <- c(1,0,1,0)
x2 <- c(0,0,1,1)
data <- data.frame(fail,nofail,x1,x2)
rownames(data) <- paste("obs",1:4)
次に、x1=1 および x2=1 (obs 3) の場合、データは常に失敗しません。このデータでは、共変量行列には切片、x1、x2 の 3 つの列があります。
私の理解では、準分離は無限の価値の見積もりをもたらします。したがって、 glm fit は失敗するはずです。ただし、次の glm フィットは失敗しません。
summary(glm(cbind(fail,nofail)~x1+x2,data=data,family=binomial))
結果は次のとおりです。
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4342 0.1318 -3.294 0.000986 ***
x1 0.8684 0.1660 5.231 1.69e-07 ***
x2 0.8684 0.1660 5.231 1.69e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
標準 準分離であっても、エラーは非常に合理的です。準分離がglmフィットの結果に影響を与えていない理由を誰か教えてもらえますか?