マイクロ ブログに関するデータセット (600 Mb、5038720 の観測値) を取得し、1 人のユーザーが 1 時間に投稿したツイート (ミッドカウントが 1 と同じツイート) の数を計算しようとしました。データセットは次のようになります。
head(mydata)
uid mid year month date hour min sec
1738914174 3342412291119279 2011 8 3 21 4 12
1738914174 3342413045470746 2011 8 3 21 7 12
1738914174 3342823219232783 2011 8 5 0 17 5
1738914174 3343095924467484 2011 8 5 18 20 43
1738914174 3343131303394795 2011 8 5 20 41 18
1738914174 3343386263030889 2011 8 6 13 34 25
ここに私のコードがあります:
count <- function(x) {
length(unique(na.omit(x)))
}
attach(mydata)
hourPost <- aggregate(mid, by=list(uid, hour), FUN=count)
約 30 分間ハングアップし、すべての実メモリ (24 Gb) が使用され、仮想メモリを使用し始めたことがわかりました。この小さなタスクがなぜそんなに多くの時間とメモリを消費したのか、どうすれば改善できるのでしょうか? 前もって感謝します!