r - Rのlmeモデル（多項式を使用）からの予測値のプロット

Question

lme()1 つの固定効果と 1 つのランダム切片項 (異なるグループを説明するため) を持つ線形混合効果モデル (R の nlme パッケージの関数で実行) を使用しています。モデルは次のように指定された 3 次多項式モデルです (以下のアドバイスに従います)。

   M1 = lme(dv ~ poly(iv,3), data=dat, random= ~1|group, method="REML")

いくつかの例のデータのみ:

> dput(dat)
structure(list(group = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("1", 
"2"), class = "factor"), iv = c(24L, 100L, 110L, 115L, 116L, 
120L, 125L, 127L, 138L, 139L, 142L, 150L, 152L, 154L, 157L, 161L, 
168L, 177L, 181L, 189L, 190L, 198L, 200L, 213L, 216L, 225L, 254L, 
284L, 40L, 51L, 76L, 130L, 155L, 158L, 160L, 163L, 167L, 169L, 
170L, 177L, 185L, 190L, 203L, 206L, 208L, 219L, 223L, 233L, 238L, 
244L, 251L, 260L, 265L), dv = c(0L, 8L, 6L, 8L, 10L, 10L, 9L, 
11L, 12L, 15L, 16L, 19L, 13L, 10L, 17L, 22L, 18L, 22L, 25L, 20L, 
27L, 28L, 29L, 30L, 29L, 30L, 30L, 30L, 0L, 0L, 2L, 7L, 14L, 
12L, 17L, 10L, 14L, 13L, 16L, 15L, 17L, 21L, 25L, 20L, 26L, 27L, 
28L, 29L, 30L, 30L, 30L, 30L, 30L)), .Names = c("group", "iv", 
"dv"), row.names = c(NA, -53L), class = "data.frame")

関数を使用して適合値をプロットしたいと思いpredictます (iv の値はデータセット内で連続していないため、適合曲線の外観/滑らかさを改善したいと考えています)。

単純な lme モデル (多項式なし) から予測値をプロットする方法に関するオンラインの例を使用して (ここを参照してください: lme fitおよびhttp://glmm.wikidot.com/faqから予測バンドを抽出します)、予測された「母集団」をプロットできます。 ' は、次のコードを使用して多項式を使用しない lme を意味します。

#model without polynomials
dat$group = factor(dat$group)
M2 = lme(dv ~ iv, data=dat, random= ~1|group, method="REML")

#1.create new data frame with new values for predictors (where groups aren't accounted for)
range(dat$iv)
new.dat = data.frame(iv = seq(from =24, to =284, by=1))

#2. predict the mean population response
new.dat$pred = predict(M2, newdata=new.dat, level=0)

#3. create a design matrix
Designmat <- model.matrix(eval(eval(M2$call$fixed)[-2]), new.dat[-ncol(new.dat)])

#4. get standard error and CI for predictions
predvar <- diag(Designmat %*% M2$varFix %*% t(Designmat)) 
new.dat$SE <- sqrt(predvar) 
new.dat$SE2 <- sqrt(predvar+M2$sigma^2)

# Create plot with different colours for grouping levels and plot predicted values for population mean
G1 = dat[dat$group==1, ]
G2 = dat[dat$group==2, ]

plot(G1$iv, G1$dv, xlab="iv", ylab="dv", ylim=c(0,30), xlim=c(0,350), pch=16, col=2)
points(G2$iv, G2$dv, xlab="", ylab="", ylim=c(0,30), xlim=c(0,350), pch=16, col=3)

F0 = new.dat$pred
I = order(new.dat$iv); eff = sort(new.dat$iv)
lines(eff, F0[I], lwd=2, type="l", ylab="", xlab="", col=1, xlim=c(0,30))
#lines(eff, F0[I] + 2 * new.dat$SE[I], lty = 2)
#lines(eff, F0[I] - 2 * new.dat$SE[I], lty = 2)

このコードを次のように拡張したいと思います。1) グループ内予測線と平均母集団値をプロットし、2) lme の予測「母集団」曲線と「グループ内」曲線をプロットするためにコードを適応させる方法を決定します。多項式 (つまり、上記のモデル M1)。

グループ予測の取得: 以下のコードを使用して、グループの予測値のセットを 1 つ取得できますが、各グループの線と母集団の平均をプロットしたいと思います。サンプルデータの場合、方法がわかりません。 2 つのグループラインの予測値を抽出できますか?

new.dat = data.frame(iv = dat$iv, group=rep(c("1","2"),c(28,25)))
Pred = predict(M2, newdata=new.dat, level=0:1)

また、元の iv 値の数よりも多くの値を予測する場合 (たとえば、不規則なデータがある場合)、これは機能しません。行数が異なるため、以下は明らかに機能しませんが、構文に苦労しています。

new.dat = data.frame(iv = seq(from =24, to =284, by=1), group=rep(c("1","2"),c(28,25)))

多項式モデルの場合: poly(iv,3) を new.dat データフレームに組み込んで予測関数にフィードする方法がわかりません。

これらの2つの目標を達成する方法についてのアドバイスは、私がしばらく喜びを感じずにこれを理解しようとしてきたため、非常に高く評価されます(可能であれば、ggplotよりも基本グラフィックを使用したいと思います)。ありがとう！

score 6 · Accepted Answer

あなたが非線形項に飛び込むのが早すぎて、多項式の項を検討する前にデータの調査にもっと時間を費やすべきだと思う理由を詳しく説明しましょう。

まず、2 次および 3 次の多項式項を入力するより正しい方法:

> M1 = lme(dv ~ poly(iv ,3), data=dat, random= ~1|group, method="REML")
> summary(M1)
Linear mixed-effects model fit by REML
 Data: dat 
       AIC      BIC    logLik
  245.4883 256.8393 -116.7442

Random effects:
 Formula: ~1 | group
        (Intercept) Residual
StdDev:    2.465855 2.435135

Fixed effects: dv ~ poly(iv, 3) 
                 Value Std.Error DF   t-value p-value
(Intercept)   18.14854  1.775524 48 10.221507  0.0000
poly(iv, 3)1  64.86375  2.476145 48 26.195452  0.0000
poly(iv, 3)2   2.76606  2.462331 48  1.123349  0.2669
poly(iv, 3)3 -13.90253  2.485106 48 -5.594339  0.0000
 Correlation: 
             (Intr) p(,3)1 p(,3)2
poly(iv, 3)1 -0.002              
poly(iv, 3)2 -0.002  0.027       
poly(iv, 3)3  0.002 -0.036 -0.030

Standardized Within-Group Residuals:
       Min         Q1        Med         Q3        Max 
-2.6349301 -0.6172897  0.1653097  0.7076490  1.6581112 

Number of Observations: 53
Number of Groups: 2

では、2 次項が重要でないのに、3 次項が重要になるのはなぜでしょうか? データを見てください...これは後から考えるのではなく、ビジネスの最初の注文である必要があります。

library(lattice)
xyplot( dv ~ iv|group, dat)
png(); print(xyplot( dv ~ iv|group, dat) ); dev.off()

ここに画像の説明を入力

単純なプロット呼び出しで明らかになるように、それらは 30 での体系的なカットオフです (データは少しまばらですが、おそらく 0 です)。したがって、測定方法の制約によって課せられる上限効果を、ある種の非線形項に帰することになります。

r - Rのlmeモデル（多項式を使用）からの予測値のプロット

2 に答える 2

Related

Reference