r - 混合効果のロジスティック回帰におけるクラスター/グループごとの可変サンプルサイズ

Question

混合効果のロジスティック回帰モデルを実行しようとしていますが、各クラスター/グループの可変サンプルサイズと、一部のモデルの「成功」数が非常に少ないことを懸念しています。

2004 年から 2011 年まで毎年訪れた 163 のフィールドプロット (つまり、クラスター/グループ) に約 700 本の木が分散しています。私は、研究の各年に個別の混合効果ロジスティック回帰モデル (以下、GLMM) を適合させて、この出力を共有虚弱モデル (つまり、ランダム効果による生存分析) からの推論と比較しています。

プロットあたりの木の数は 1 ～ 22 です。また、年によっては、「成功」(つまり、病気の木) の数が非常に少ない年もあります。たとえば、2011 年には、694 回の「失敗」(つまり、健全な木) のうち、成功したのは 4 回だけでした。

私の質問は次のとおりです: (1) 推論の焦点が GLMM の固定効果の推定のみにある場合のサンプル|グループの理想的な数の一般的な規則はありますか? (2) GLMM にそのような極端な違いがある場合、GLMM は安定していますか?成功と失敗の比率。

ソースのアドバイスや提案をありがとう。

-サラ

score 1 · Accepted Answer

(こんにちは、サラ、以前に電子メールで返事をしておらず申し訳ありません...)

一般的に、これらの質問に答えるのは難しいです。データに行き詰まっていますよね? したがって、これは電力分析の問題ではありません。結果が十分に信頼できるものであることを確認したい場合、おそらく最善の方法は、いくつかのシミュレーションを実行することです。(Github の開発バージョン 1.1-1 で)のかなり最近の機能を紹介しlme4ます。これは、数式と一連のパラメーターを指定して GLMM からのデータをシミュレートすることです。

最初に、予測変数をシミュレートする必要があります (データは既にあるので、これを行う必要はありませんが、プロット数の範囲、プロットごとのツリーなどを変更してみることをお勧めします)。

set.seed(101)
## simulate number of trees per plot
## want mean of 700/163=4.3 trees, range=1-22
## by trial and error this is about right
r1 <- rnbinom(163,mu=3.3,size=2)+1
## generate plots and trees within plots
d <- data.frame(plot=factor(rep(1:163,r1)),
            tree=factor(unlist(lapply(r1,seq))))
## expand by year
library(plyr)
d2 <- ddply(d,c("plot","tree"),
        transform,year=factor(2004:2011))

ここでパラメーターを設定します。年は固定効果であり、全体的な病気の発生率はplogis(-2)=0.122011 年を除いてであると仮定しplogis(-2-3)=0.0067ます。プロット間標準偏差は (ロジットスケールで) 1 であり、プロット内ツリー間標準偏差も同様です。

beta <- c(-2,0,0,0,0,0,0,-3)
theta <- c(1,1)  ## sd by plot and plot:tree

シミュレートするようになりました: 固定効果としての年、変量効果としてのプロットとプロット内のツリー

library(lme4)
s1 <- simulate(~year+(1|plot/tree),family=binomial,
     newdata=d2,newparams=list(beta=beta,theta=theta))
d2$diseased <- s1[[1]]

要約/チェック:

d2sum <- ddply(d2,c("year","plot"),
           summarise,
           n=length(tree),
           nDis=sum(diseased),
           propDis=nDis/n)
library(ggplot2)
library(Hmisc)  ## for mean_cl_boot
theme_set(theme_bw())
ggplot(d2sum,aes(x=year,y=propDis))+geom_point(aes(size=n),alpha=0.3)+
    stat_summary(fun.data=mean_cl_boot,colour="red")

次にモデルを当てはめます。

g1 <- glmer(diseased~year+(1|plot/tree),family=binomial,
        data=d2)
fixef(g1)

これを何度も試して、結果が信頼できる頻度を確認できます...

score 0 · Accepted Answer

Josh が言ったように、これはCrossValidatedのより良い質問です。

ロジスティック回帰には明確なルールはありませんが、1 つの経験則では、設計内のセル (この場合はクラスター) ごとに 10 回の成功と 10 回の失敗が必要であり、モデル内の連続変数の数を掛けます。

あなたの場合、モデルが収束すると不安定になると思います。これは、固定効果の推定値の誤差をブートストラップすることで調べることができます。

r - 混合効果のロジスティック回帰におけるクラスター/グループごとの可変サンプル サイズ

2 に答える 2

Related

Reference

r - 混合効果のロジスティック回帰におけるクラスター/グループごとの可変サンプルサイズ