0

これらの列を持つディスク フレームがあります

key_a
key_b
key_c
value

ディスク フレームが 2 億行で、key_b でグループ化したいとします。さらに、基盤となるディスク フレームを変更せずにそのままにしておきたいので、後で key_c の別のものに結合したり、key_a に集約したりできます。srckeep が基礎となるディスク フレームに影響を与えることを懸念しています。

これらのいずれかが機能しますか? もしそうなら、一方が他方より速いと期待できますか?

  df %>% 
  srckeep("value", "key_b") %>%
  group_by(key_b) %>% 
  summarize(avg = mean(value)) %>% 
  collect
  df[
    keep = c("value", "key_b" 
    .(avg = mean(value)),
    .(key_b)
    ]

これらの集計のいずれかは、基盤となるディスク フレームにどのように影響しますか? 以前に、集計を変数に割り当ててから を実行した経験がありましたがdelete(aggregation、ディスク フレーム全体が削除されました。

4

1 に答える 1