0

質問は次のように与えられます。

ファイルdiameter.csvを読み取ります。BMI と結果と呼ばれる 2 つの変数があります。変数 Outcome は、0 と 1 の 2 つの値のみを取ります。BMI の標準偏差が両方の Outcome 値で同じであるという仮説について、ノンパラメトリック 2 サンプル検定を実行します。

bmi <- diabetes$BMI
bmi
outcome <- diabetes$Outcome
outcome

n <- length(bmi)

# tstat
tstat <- ???

# Describe the population and draw synthetic samples
f1 <- function()
{
    x <- c(bmi, outcome) 
    x <- sample(x)
    m1 <- sd(x[1:n])
    m2 <- sd(x[(n+1):length(x)])
    return(m1 - m2)
}

# Create sampling distribution
sdist <- replicate(10000, f1())
plot(density(sdist))

# Gap
gap <- abs(mean(sdist) - tstat)
abline(v = mean(sdist) + c(-1,1) * gap, col = "dark orange")
s1 <- sdist[sdist <(mean(sdist - gap)) | sdist >(mean(sdist + gap))]
pvalue <- length(s1) / length(sdist)
pvalue

データは「糖尿病」と呼ばれるデータセットにあります。私の質問は、結果がバイナリであるため、「t統計」をどのように表現するかです。

4

1 に答える 1