1

2つのデータフレームがあります。

df1<- as.data.frame(matrix(1:15, ncol=5))
df2<- as.data.frame(matrix(30:44,ncol=5))

2つのデータフレームを使用して、zscoreを計算します。機能は次のとおりです。

z = (X - u)/ O

df1にはすべてのX値が含まれ、df2データフレームの各行には平均とsdを計算するための値が含まれています。df1の最初の列のzスコアを計算するループを生成します。しかし、今私の質問は、データフレーム全体のzスコアをどのように計算できるかということです。

test <- list()
for (i in 1:nrow(df1) {
  zscore<- (df1[i,1] - (apply(df2[i,],1,mean))) / (apply(df2[i,],1,sd))
  test[[i]] <- matrix(zscore)
  i <- 1+1
}

皆さん、ありがとうございました!

4

1 に答える 1

8

[ここに行/列が逆になっていると思います。zスコアは通常、変数に適用されます。変数はRが列にあると想定します。以下に書くことは、通常の慣習に従います。本当に行で標準化したい場合は、それに応じて変更してください。]

sweep()あなたの汎用の友達です。平均と標準偏差を計算してから、データフレームからそれらをスイープ(この場合は減算)しますdf1

## compute column means and sd
mns <- colMeans(df2)     ## rowMeans if by rows
sds <- apply(df2, 2, sd) ## 2 -> 1 if by rows

## Subtract the respective mean from each column
df3 <- sweep(df1, 2, mns, "-")  ## 2 -> 1 if by rows
## Divide by the respective sd
df3 <- sweep(df3, 2, sds, "/")  ## 2 -> 1 if by rows

これは次のようになります。

R> df3
   V1  V2  V3  V4  V5
1 -30 -30 -30 -30 -30
2 -29 -29 -29 -29 -29
3 -28 -28 -28 -28 -28

df3ベクトル化された方法での最初の列の計算を実行することにより、これが機能したことを確認できます。

R> (df1[,1] - mean(df2[,1])) / sd(df2[,1])
[1] -30 -29 -28

この特定の状況では、scale()関数を使用しcenterscale、それぞれの平均と標準偏差を指定することもできます。

R> scale(df1, center = mns, scale = sds)
      V1  V2  V3  V4  V5
[1,] -30 -30 -30 -30 -30
[2,] -29 -29 -29 -29 -29
[3,] -28 -28 -28 -28 -28
attr(,"scaled:center")
V1 V2 V3 V4 V5 
31 34 37 40 43 
attr(,"scaled:scale")
V1 V2 V3 V4 V5 
 1  1  1  1  1
于 2011-08-02T08:30:39.547 に答える