data.table
ユーザーID、居住国、イベントなどのイベントを記録しています。例えば、
dt <- data.table(user=c(rep(3, 5), rep(4, 5)),
country=c(rep(1,4),rep(2,6)),
event=1:10, key="user")
ご覧のとおり、データは多少破損しています。イベント 5 は、ユーザー 3 が国 2 にいると報告しています (または、彼は旅行した可能性があります。ここでは関係ありません)。したがって、データを要約しようとすると:
dt[, country[.N] , by=user]
user V1
1: 3 2
2: 4 2
ユーザー 3 について間違った国を取得しました。理想的には、ユーザーの最も一般的な国と、そのユーザーがそこで過ごした時間の割合を取得したいと考えています。
user country support
1: 3 1 0.8
2: 4 2 1.0
それ、どうやったら出来るの?
実際のデータには〜10 ^ 7行あるため、ソリューションをスケーリングする必要があります(これが、私が使用している理由であり、結局のところそうではdata.table
ありません)。data.frame