r - ifelse は本当に毎回両方のベクトルを計算しますか? 遅いですか？

Question

とベクトルifelseの両方を本当に計算しますか?たとえば、各ベクトル全体を計算しますか? それとも、各ベクトルからいくつかの値を計算するだけですか?yesno

また、ifelse本当に遅いですか？

score 76 · Accepted Answer

はい。(例外あり)

ifelseyesその値とその値の両方を計算しnoます。test条件が allTRUEまたは allの場合を除きますFALSE。

これは、乱数を生成し、実際に生成された数を観察することで確認できます。(元に戻すことによりseed)。

# TEST CONDITION, ALL TRUE
set.seed(1)
dump  <- ifelse(rep(TRUE, 200), rnorm(200), rnorm(200))
next.random.number.after.all.true <- rnorm(1)

# TEST CONDITION, ALL FALSE
set.seed(1)
dump  <- ifelse(rep(FALSE, 200), rnorm(200), rnorm(200))
next.random.number.after.all.false <- rnorm(1)

# TEST CONDITION, MIXED
set.seed(1)
dump   <- ifelse(c(FALSE, rep(TRUE, 199)), rnorm(200), rnorm(200))
next.random.number.after.some.TRUE.some.FALSE <- rnorm(1)

# RESET THE SEED, GENERATE SEVERAL RANDOM NUMBERS TO SEARCH FOR A MATCH
set.seed(1)
r.1000 <- rnorm(1000)


cat("Quantity of random numbers generated during the `ifelse` statement when:", 
    "\n\tAll True  ", which(r.1000 == next.random.number.after.all.true) - 1,
    "\n\tAll False ", which(r.1000 == next.random.number.after.all.false) - 1,
    "\n\tMixed T/F ", which(r.1000 == next.random.number.after.some.TRUE.some.FALSE) - 1 
  )

次の出力が得られます。

Quantity of random numbers generated during the `ifelse` statement when: 
  All True   200 
  All False  200 
  Mixed T/F  400   <~~ Notice TWICE AS MANY numbers were
                       generated when `test` had both
                       T & F values present

ソースコード自体にもそれを見ることができます：

.
.
if (any(test[!nas]))    
    ans[test & !nas] <- rep(yes, length.out = length(ans))[test &   # <~~~~ This line and the one below
        !nas]
if (any(!test[!nas])) 
    ans[!test & !nas] <- rep(no, length.out = length(ans))[!test &  # <~~~~ ... are the cluprits
        !nas]
.
.

とは、 or (それぞれ)の非値がある場合にのみ計算されることyesに注意してください。どの時点で (これは効率に関して重要な部分です) 、各ベクトルの全体が計算されます。noNAtestTRUEFALSE

わかりましたが、遅いですか？

テストできるかどうか見てみましょう。

library(microbenchmark)

# Create some sample data
  N <- 1e4
  set.seed(1)
  X <- sample(c(seq(100), rep(NA, 100)), N, TRUE)
  Y <- ifelse(is.na(X), rnorm(X), NA)  # Y has reverse NA/not-NA setup than X

これら 2 つのステートメントは同じ結果を生成します

yesifelse <- quote(sort(ifelse(is.na(X), Y+17, X-17 ) ))
noiflese  <- quote(sort(c(Y[is.na(X)]+17, X[is.na(Y)]-17)))

identical(eval(yesifelse), eval(noiflese))
# [1] TRUE

しかし、一方は他方の 2 倍の速さです

microbenchmark(eval(yesifelse), eval(noiflese), times=50L)

N = 1,000
Unit: milliseconds
            expr      min       lq   median       uq      max neval
 eval(yesifelse) 2.286621 2.348590 2.411776 2.537604 10.05973    50
  eval(noiflese) 1.088669 1.093864 1.122075 1.149558 61.23110    50

N = 10,000
Unit: milliseconds
            expr      min       lq   median       uq      max neval
 eval(yesifelse) 30.32039 36.19569 38.50461 40.84996 98.77294    50
  eval(noiflese) 12.70274 13.58295 14.38579 20.03587 21.68665    50

r - ifelse は本当に毎回両方のベクトルを計算しますか? 遅いですか？

1 に答える 1

はい。(例外あり)

ソースコード自体にもそれを見ることができます：

わかりましたが、遅いですか？

これら 2 つのステートメントは同じ結果を生成します

しかし、一方は他方の 2 倍の速さです

Related

Reference