なぜテストを実行したいのか、また、なぜそれが特定のサイトを差別化できると考えるのかについての説明がなければ、約 100 件が単に偶然に非正常であると判明するでしょう。水質データが一般的に正常かどうかを確認したい場合は、すべてのデータを一度に確認することをお勧めします。平均はサイトごとに異なるため、チェックできるのはSitecode
、予測因子としての因子を使用した線形モデルの残差です。
library(nortest)
dat <- read.csv( 'myDataFileName.csv' )
m <- lm( Mean_res ~ Sitecode, data = dat)
res <- resid(m)
ad.test(res)
これで、 で Anderson Darling テストを実行できますres
。
しかし、楽しみのために、既知の正規分布から多数のサンプルのいくつかの AD 検定を生成してみて、qqnorm
プロットを見て、それらがどのように見えるかを確認してください。
y <- rnorm( nrow(dat) )
ad.test(y)
qqnorm(y); qqline(y)
非常に多くのポイントがあると、AD テストに時々失敗することがありますが、データは驚くほど正常に見えます。したがって、答えはおそらく AD テストではありません。残差のプロットを見て、正規性を評価するのがおそらく最善です。
最初のコメントに戻ると、正規性テストは、正規性からの逸脱を検出できるかどうかのみを示します。また、t 検定と同様に、非常に高い N で非常に感度が高く、アルファ レートで誤った警告を出します。データが正常かどうかはわかりません。したがって、テストに「合格」しても、データが正常であるというデモンストレーションは得られません。それらが正常性に対するテストであることを考えると、それらが行うことは、どのサイトが正常ではないかを示すことです (多くの誤報があります)。一部のサイトが正常でないと信じる何らかの理由がなければ、計画したテストはおそらくやりたいことではありません。