0

列 1 (領域) に解剖学的領域、列 2 (S1) に遺伝子発現値を含むデータフレームに対して ANOVA と TukeyHSD を実行しました。通常、aov サマリーの p 値はPr(>F)として表現されると予想されるため、取得した結果については少しあいまいです。また、誰かが平均結果のTukey多重比較を理解するのを手伝ってくれますか? diffp adjの結果が何を示しているかは完全にはわかりません。ここに示されている結果は、私が実際に作業しているものの要約版です。参考までに。

> aov.result = aov(S1 ~ region, data=raw.data)
> summary(aov.result)
             Df  Sum Sq Mean Sq F value    Pr(>F)    
region       60  61.713 1.02856  5.9246 < 2.2e-16 ***
Residuals   655 113.712 0.17361                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
> TukeyHSD(aov.result)
Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = S1 ~ region, data = raw.data)

$region
                     diff           lwr          upr     p adj
AB-AA        0.4118651583 -2.864195e-01  1.110149848 0.9847745
AHA-AA      -0.0468785098 -7.608569e-01  0.667099930 1.0000000
APir-AA      0.4419135565 -2.563711e-01  1.140198246 0.9502924
B-AA         0.5379787168 -1.603060e-01  1.236263406 0.5846356
4

1 に答える 1

2

再現可能なデータ、1 つの因子と 1 つの連続変数から始めましょう。

set.seed(1)
df1 <- data.frame(
    f1=as.factor(rep(seq(1:3),4)),
    c1=abs(rnorm(12)))
s1 <- stats::aov(df1$c1 ~ df1$f1)
summary(s1)

これにより、あなたと同様の出力が得られます。

データの P 値は正しく表示され、次のように確認できます。

1-stats::pf(q=5.92, df1=60, df2=655)
[1] 0

次に、次の出力を見てください。

s2 <- stats::TukeyHSD.aov(s1)

すなわち

$`df1$f1`
           diff       lwr       upr     p adj
2-1 -0.06282377 -1.038236 0.9125887 0.9823655
3-1 -0.09820762 -1.073620 0.8772048 0.9575774
3-2 -0.03538385 -1.010796 0.9400286 0.9943641

最初の列は平均の差です。私の例では:

m1 <- mean( df1$c1[df1$f1==1] )
m2 <- mean( df1$c1[df1$f1==2] )

今はにm2-m1ほぼ等しいs2$"df1$f1"[1,1]-0.068..

この「平均の差」には、スチューデント化された範囲 (q) 分布から計算された信頼区間があります。メカニズムは のソース コードで見つけることができますstats::TukeyHSD.aov()。も参照してください?ptukey。「多重比較の修正」の理論的根拠は 、特定のコンテキストでは物議をかもしていることにも注意してください。この種の質問は、 CrossValidatedに適している可能性があります。

于 2013-05-08T21:55:20.263 に答える