5

私はこのコードをクリーンアップしようとしていますが、ループなしで R でこれを実行する方法について何か提案があるかどうか疑問に思っていました。100 個の変数と 200,000 個の観測値を持つ data というデータセットがあります。私がやりたいことは、基本的に、各観測値に特定のスカラーを掛けてデータセットを拡張し、データを結合することです。最終的に、800,000 件の観測 (作成するカテゴリが 4 つある) と 101 個の変数を含むデータ セットが必要です。これは私が書いたループですが、非常に非効率的で、もっと速くて効率的なものが欲しいです。

datanew <- c()
for (i in 1:51){
  for (k in 1:6){
    for (m in 1:4){

      sub <- subset(data,data$var1==i & data$var2==k)

      sub[,4:(ncol(sub)-1)] <- filingstat0711[i,k,m]*sub[,4:(ncol(sub)-1)]

      sub$newvar <- m

      datanew <- rbind(datanew,sub)

    }
  }
}

ご意見をお聞かせください。ご協力いただきありがとうございます。

以下は、200K ではなく 2K の観測値を含むサンプル データです。

# SAMPLE DATA
#------------------------------------------------#
  mydf <- as.data.frame(matrix(rnorm(100 * 20e2), ncol=20e2, nrow=100))
  var1 <- c(sapply(seq(41), function(x) sample(1:51)))[1:20e2]
  var2 <- c(sapply(seq(2 + 20e2/6), function(x) sample(1:6)))[1:20e2]
  #----------------------------------#
  mydf <- cbind(var1, var2, round(mydf[3:100]*2.5, 2))
  filingstat0711 <- array(round(rnorm(51*6*4)*1.5 + abs(rnorm(2)*10)), dim=c(51,6,4))
#------------------------------------------------#
4

1 に答える 1

3

以下を試すことができます。最初の 2 つの for ループを への呼び出しに置き換え、mapply3 番目の for ループを lapply への呼び出しに置き換えたことに注意してください。また、ベクトル化された乗算のために結合する 2 つのベクトルを作成しています。

# create a table of the i-k index combinations using `expand.grid`
ixk <- expand.grid(i=1:51, k=1:6)

    # Take a look at what expand.grid does
    head(ixk, 60)


# create two vectors for multiplying against our dataframe subset
multpVec <- c(rep(c(0, 1), times=c(4, ncol(mydf)-4-1)), 0)
invVec   <- !multpVec

    # example of how we will use the vectors
    (multpVec * filingstat0711[1, 2, 1] + invVec)


# Instead of for loops, we can use mapply. 
newdf <- 
  mapply(function(i, k) 
    
    # The function that you are `mapply`ing is:
    # rbingd'ing a list of dataframes, which were subsetted by matching var1 & var2
    # and then multiplying by a value in filingstat
    do.call(rbind, 
        # iterating over m
        lapply(1:4, function(m)
          
          # the cbind is for adding the newvar=m, at the end of the subtable
          cbind(

            # we transpose twice: first the subset to multiply our vector. 
            # Then the result, to get back our orignal form
            t( t(subset(mydf, var1==i & mydf$var2==k)) * 
              (multpVec * filingstat0711[i,k,m] + invVec)), 
          
          # this is an argument to cbind
          "newvar"=m) 
    )), 

    # the two lists you are passing as arguments are the columns of the expanded grid
    ixk$i, ixk$k, SIMPLIFY=FALSE
  )

# flatten the data frame
newdf <- do.call(rbind, newdf)


2 つの注意点:
  1. 一般的に使用される関数である、、、などの単語を使用しないようにしてくださいdata。上記のコードでは、の代わりに使用しました。tabledfsubmydfdata

  2. 私が使用しapply(ixk, 1, fu..)た の代わりに使用できますmapplyが、mapply はこの状況でよりクリーンなコードになると思います

于 2012-12-23T05:58:20.123 に答える