1

したがって、次の列を持つデータセットがあります:test_group、person_id、gross、purchases。これは基本的に、人々、彼らが費やした金額、彼らが購入した回数、および彼らがどのグループに属しているかのリストです。

要約統計量を取得するために、次のddplyコードを使用しています。

mean_rpu <- ddply(data, .(test_group), summarise, total_rpu=sum(gross),
    total_users=length(person_id), total_purchasers=length(subset(data,  
    purchases > 0)$person_id), mean_rpu=mean(gross), sd_rpu=sd(gross))

私が遭遇している問題は、「total_purchasers」の要約にあります。各test_group内の購入者の数を取得しようとしています。現在のコードは、データセット全体のtotal_purchasersのみを表示し、test_group係数は表示しません。これでできる最適化はありますか?

私は助けに感謝します!

4

1 に答える 1

10

再現可能な例がなければ、確かに言うのは難しいですが、おそらくあなたはこれを望んでいました:

total_purchasers=length(person_id[purchases>0])
于 2012-05-11T18:32:27.700 に答える