これらの列を持つディスク フレームがあります
key_a
key_b
key_c
value
ディスク フレームが 2 億行で、key_b でグループ化したいとします。さらに、基盤となるディスク フレームを変更せずにそのままにしておきたいので、後で key_c の別のものに結合したり、key_a に集約したりできます。srckeep が基礎となるディスク フレームに影響を与えることを懸念しています。
これらのいずれかが機能しますか? もしそうなら、一方が他方より速いと期待できますか?
df %>%
srckeep("value", "key_b") %>%
group_by(key_b) %>%
summarize(avg = mean(value)) %>%
collect
df[
keep = c("value", "key_b"
.(avg = mean(value)),
.(key_b)
]
これらの集計のいずれかは、基盤となるディスク フレームにどのように影響しますか? 以前に、集計を変数に割り当ててから を実行した経験がありましたがdelete(aggregation
、ディスク フレーム全体が削除されました。