r - data.tables を使用した複数の結合/マージ

Question

DT と L の 2 つの data.tables があります。

> DT = data.table(x=rep(c("a","b","c"),each=3), y=c(1,3,6), v=1:9,key="x")
> L=data.table(yv=c(1L:8L,12L),lu=c(letters[8:1],letters[12]),key="yv")

> DT
   x y v
1: a 1 1
2: a 3 2
3: a 6 3
4: b 1 4
5: b 3 5
6: b 6 6
7: c 1 7
8: c 3 8
9: c 6 9

> L
   yv lu
1:  1  h
2:  2  g
3:  3  f
4:  4  e
5:  5  d
6:  6  c
7:  7  b
8:  8  a
9: 12  l

DT の列 y と列 v の L から lu の対応する値を個別に調べたいと思います。次の構文は正しい結果を提供しますが、生成して後で一目で理解するのは面倒です。

> L[setkey(L[setkey(DT,y)],v)][,list(x,y=yv.1,v=yv,lu.1=lu.1,lu.2=lu)]
   x y v lu.1 lu.2
1: a 1 1    h    h
2: a 2 3    g    f
3: a 3 6    f    c
4: b 4 1    e    h
5: b 5 3    d    f
6: b 6 6    c    c
7: c 7 1    b    h
8: c 8 3    a    f
9: c 9 6   NA    c

（編集：元の投稿にはL[setkey(L[setkey(DT,y)],v)][,list(x,y=yv,v=yv.1,lu.1=lu,lu.2=lu.1)]上記があり、y列とv列が誤って混同され、値が検索されました。）

SQL では、これは単純で簡単です。

SELECT DT.*, L1.lu AS lu1, L2.lu AS lu2
FROM DT
LEFT JOIN L AS L1 ON DT.y = L1.yv
LEFT JOIN L AS L2 ON DT.v = L2.yv

複数の結合を実行するために data.table を使用するよりエレガントな方法はありますか? この例では、1 つのテーブルを別のテーブルに 2 回結合していますが、1 つのテーブルを複数の異なるテーブルに結合することにも関心があります。

score 7 · Accepted Answer

素晴らしい質問です。1 つの秘訣は、iキーを付ける必要がないことです。キーのみxが必要です。

もっと良い方法があるかもしれません。これはどう：

> cbind( L[DT[,list(y)]], L[DT[,list(v)]], DT )
   yv lu yv lu x y v
1:  1  h  1  h a 1 1
2:  3  f  2  g a 3 2
3:  6  c  3  f a 6 3
4:  1  h  4  e b 1 4
5:  3  f  5  d b 3 5
6:  6  c  6  c b 6 6
7:  1  h  7  b c 1 7
8:  3  f  8  a c 3 8
9:  6  c  9 NA c 6 9

または、説明のために、これは同じです:

> cbind( L[J(DT$y)], L[J(DT$v)], DT )
   yv lu yv lu x y v
1:  1  h  1  h a 1 1
2:  3  f  2  g a 3 2
3:  6  c  3  f a 6 3
4:  1  h  4  e b 1 4
5:  3  f  5  d b 3 5
6:  6  c  6  c b 6 6
7:  1  h  7  b c 1 7
8:  3  f  8  a c 3 8
9:  6  c  9 NA c 6 9

merge次の機能リクエストが実装されている場合は、使用することもできます。

FR#2033 by.x と by.y を merge.data.table に追加

r - data.tables を使用した複数の結合/マージ

1 に答える 1

Related

Reference