ユーザー アクティビティのログがあり、合計期間と 1 日あたりの一意のユーザー数のレポートを生成したいとします。
import numpy as np
import pandas as pd
df = pd.DataFrame({'date': ['2013-04-01','2013-04-01','2013-04-01','2013-04-02', '2013-04-02'],
'user_id': ['0001', '0001', '0002', '0002', '0002'],
'duration': [30, 15, 20, 15, 30]})
期間の集計は非常に簡単です。
group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg
duration
date
2013-04-01 65
2013-04-02 45
私がやりたいのは、期間とカウントの個別を同時に合計することですが、count_distinct に相当するものを見つけることができないようです:
agg = group.aggregate({ 'duration': np.sum, 'user_id': count_distinct})
これは機能しますが、確かにもっと良い方法がありますよね?
group = df.groupby('date')
agg = group.aggregate({'duration': np.sum})
agg['uv'] = df.groupby('date').user_id.nunique()
agg
duration uv
date
2013-04-01 65 2
2013-04-02 45 1
Series オブジェクトの個別のアイテムの数を集計関数に返す関数を提供するだけでよいと考えていますが、自由に使用できるさまざまなライブラリにあまり触れていません。また、groupby オブジェクトは既にこの情報を知っているようです。