performance - Rのデータフレームで最も低いリスト値を置き換える最も効率的な方法

Question

テスト項目を2回繰り返した場合に、被験者ごとに記録された数値のリスト/ベクトルを含むデータフレームdfがあります。

subj item rep vec
s1 1 1 [2,1,4,5,8,4,7]
s1 1 2 [1,1,3,4,7,5,3]
s1 2 1 [6,5,4,1,2,5,5]
s1 2 2 [4,4,4,0,1,4,3]
s2 1 1 [4,6,8,7,7,5,8]
s2 1 2 [2,5,4,5,8,1,4]
s2 2 1 [9,3,2,6,6,8,5]
s2 2 2 [7,1,2,3,2,7,3]

各項目について、rep 1の平均の50％を見つけてから、rep2の平均がrep1の平均以下になるまで、rep2ベクトルの最小値を0に置き換えます。たとえば、s1 item1の場合：

mean(c(2,1,4,5,8,4,7))*0.5 = 2.1 #rep1 scaled down
mean(c(1,1,3,4,7,5,3)) = 3.4 #rep2
mean(c(0,0,0,0,7,5,0)) = 1.7 #new rep2 such that mean(rep2) <= mean(rep1)

rep 2ベクトルの最小数を削除した後、rep1ベクトルとrep2ベクトルを相関させ、他のいくつかのマイナーな算術関数を実行して、結果を別の（長さで初期化された）データフレームに追加します。今のところ、私はこの擬似コードに似たループでこれを行っています：

for subj in subjs:
  for item in items:
     while mean(rep2) > mean(rep1)*0.5:
       rep2 = replace(lowest(rep2),0)
     newDataFrame[i] = correl(rep1,rep2)

ループでこれを行うのは本当に非効率的なようです。Rでは、平均がその特定のアイテムに依存する値以下になるまで、リスト/ベクトルの最小値を見つけて置き換えるより効率的な方法はありますか？そして、相関関係や他の結果を他のデータフレームに追加するための最良の方法は何ですか？

追加情報：

>dput(df)
>structure(list(subj = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 
 2L), .Label = c("s1", "s2"), class = "factor"), item = c(1L, 
 1L, 2L, 2L, 1L, 1L, 2L, 2L), rep = c(1L, 2L, 1L, 2L, 1L, 2L, 
 1L, 2L), vec = list(c(2, 1, 4, 5, 8, 4, 7), c(1, 1, 3, 4, 7, 
 5, 3), c(6, 5, 4, 1, 2, 5, 5), c(4, 4, 4, 0, 1, 4, 3), c(4, 6, 
 8, 7, 7, 5, 8), c(2, 5, 4, 5, 8, 1, 4), c(9, 3, 2, 6, 6, 8, 5
 ), c(7, 1, 2, 3, 2, 7, 3))), .Names = c("subj", "item", "rep", 
 "vec"), row.names = c(NA, -8L), class = "data.frame")

このデータフレームを出力として使用します（rep1とrep2の相関、およびrep1と新しいrep2の相関）。

subj item origCorrel newCorrel
s1 1 .80 .51
s1 2 .93 .34
s2 1 .56 .40
s2 2 .86 .79

score 1 · Accepted Answer

ループを取り除くための一般的な戦略は、サブセット化されたデータにあるすべての計算を独自の関数にしてから、aggregateorapply関数でその関数を呼び出すことです。

two.cors=function(x,ratio=.5) {
  rep1=unlist(x[1,][['vec']])
  rep2=unlist(x[2,][['vec']])
  orig.cor=cor(rep1,rep2)
     while(mean(rep2) > mean(rep1)*ratio) {
   rep2[    which(rep2==min(rep2[which(!rep2==0)]))]=0
    }
  c(orig.cor,wierd.cor=cor(rep1,rep2))
}

daplyを使用したいので、get plyr、aggregateまたはbase*apply関数を使用できます

library(plyr)

次に、データセットで関数を呼び出します

 daply(df,c("subj","item"), .fun=function(x) two.cors(x,ratio=.4) )

two.corsこの出力は再フォーマットできますが、関数から追加の統計が必要だと思うので、私はそれをあなたに任せました

performance - Rのデータフレームで最も低いリスト値を置き換える最も効率的な方法

1 に答える 1

Related

Reference