r - ベクトルスキャンではなくバイナリ検索を使用して、2列キーの2列目のみでdata.tableをサブセット化する

Question

最近、で二分探索を発見しましたdata.table。テーブルが複数のキーでソートされている場合、2番目のキーのみで検索できますか？

DT = data.table(x=sample(letters,1e7,T),y=sample(1:25,1e7,T),rnorm(1e7))
setkey(DT,x,y)
#R> DT[J('x')]
#        x  y       V3
#     1: x  1  0.89109
#     2: x  1 -2.01457
#    ---              
#384922: x 25  0.09676
#384923: x 25  0.25168
#R> DT[J('x',3)]
#       x y       V3
#    1: x 3 -0.88165
#    2: x 3  1.51028
#   ---             
#15383: x 3 -1.62218
#15384: x 3 -0.63601

編集：@Arunに感謝

R> system.time(DT[J(unique(x), 25)])
   user  system elapsed 
  0.220   0.068   0.288 
R> system.time(DT[y==25])
   user  system elapsed 
  0.268   0.092   0.359

score 18 · Accepted Answer

はい、すべての値を最初のキー値に渡し、2番目のキーの特定の値でサブセット化することができます。

DT[J(unique(x), 25), nomatch=0]

2番目のキーの複数の値（たとえば、と同等のもの）でサブセット化する必要がある場合はDT[y %in% 25:24]、より一般的な解決策を使用することです。CJ

DT[CJ(unique(x), 25:24), nomatch=0]

CJデフォルトでは、列を並べ替え、すべての列にキーを設定します。これは、結果も並べ替えられることを意味します。それが望ましくない場合は、sorted=FALSE

DT[CJ(unique(x), 25:24, sorted=FALSE), nomatch=0]

将来的にセカンダリキーを追加する機能リクエストもありdata.tableます。新しい機能を追加する予定だと思いますset2key。

FR＃1007セカンダリキーを組み込む

mergeのメソッドを持つ、もありdata.tableます。内部キーが内部に構築されるため、ベースマージよりも高速である必要があります。を参照してください?merge.data.table。

score 6 · Accepted Answer

このメールスレッドに基づいて、次の関数を作成しました。

create_index = function(dt, ..., verbose = getOption("datatable.verbose")) {
  cols = data.table:::getdots()
  res = dt[, cols, with=FALSE]
  res[, i:=1:nrow(dt)]
  setkeyv(res, cols, verbose = verbose)
}

JI = function(index, ...) {
  index[J(...),i]$i
}

DTが大きい（1e8行）システムでの結果は次のとおりです。

> system.time(DT[J("c")])
   user  system elapsed 
  0.168   0.136   0.306 

> system.time(DT[J(unique(x), 25)])
   user  system elapsed 
  2.472   1.508   3.980 
> system.time(DT[y==25])
   user  system elapsed 
  4.532   2.149   6.674 

> system.time(IDX_y <- create_index(DT, y))
   user  system elapsed 
  3.076   2.428   5.503 
> system.time(DT[JI(IDX_y, 25)])
   user  system elapsed 
  0.512   0.320   0.831

インデックスを複数回使用している場合は、それだけの価値があります。

r - ベクトルスキャンではなくバイナリ検索を使用して、2列キーの2列目のみでdata.tableをサブセット化する

2 に答える 2

Related

Reference