r - データテーブルの列のサブセットから一意の行を抽出するにはどうすればよいですか?

Question

列のサブセットとの条件を指定して、data.table から一意の行を取得したいと思いますi。それについて行く最善の方法は何ですか？(計算速度と短いまたは読みやすい構文の点で「最高」)

set.seed(1)
jk <- data.table(c1 = sample(letters,60,replace = TRUE), 
                 c2 = sample(c(TRUE,FALSE),60, replace = TRUE), 
                 c3 = sample(letters,60, replace = TRUE),
                 c4 = sample.int(10,60, replace = TRUE)
                 )

c1とc2が10の一意の組み合わせを見つけたいとしますc4。それを行う方法はいくつか考えられますが、何が最適かはわかりません。抽出する列がキー付きかどうかも重要な場合があります。

## works but gives an extra column
jk[c4 >= 10, TRUE, keyby = list(c1,c2)]
## this removes extra column
jk[c4 >= 10, TRUE, keyby = list(c1,c2)][,V1 := NULL]

## this seems like it could work
## but no j-expression with a keyby throws an error
jk[c4 >= 10, , keyby = list(c1,c2)]

## using unique with .SD
jk[c4 >= 10, unique(.SD), .SDcols = c("c1","c2")]

score 4 · Accepted Answer

少なくとも私にとって最も簡単なのは、unique(jk[c4 >= 10, list(c1, c2)])@Justinによって提案されたものか、 unique(jk[c4 >= 10, c("c1", "c2")]). これらの後者は、少なくとも私のラップトップでは、これまでの 4 つの提案の中で最も高速です。

microbenchmark(
a=jk[c4 >= 10, list(c1,c2), keyby = list(c1,c2)][,c("c1","c2")],
b=jk[c4 >= 10, unique(.SD), .SDcols = c("c1","c2")],
c=unique(jk[c4>=10,list(c1,c2)]),
d=unique(jk[c4>=10,c("c1","c2")])
)

Unit: microseconds
 expr      min       lq    median        uq      max neval
    a 1378.742 1456.676 1494.9380 1531.1395 2515.796   100
    b  906.404  943.072  963.7790  997.4930 3805.846   100
    c 1167.125 1201.988 1232.3500 1272.2250 2077.047   100
    d  627.768  653.314  669.8625  683.8045  739.808   100

r - データ テーブルの列のサブセットから一意の行を抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference

r - データテーブルの列のサブセットから一意の行を抽出するにはどうすればよいですか?