各観測の重みを持つデータセットがあり、使用して重み付けされた要約を準備したいのですgroupby
が、これを行う最善の方法についてはさびています。カスタム集計関数を意味すると思います。私の問題は、アイテムごとのデータではなく、グループごとのデータを適切に処理する方法です。これは、一度に行うよりも段階的に行う方がよいということを意味しているのかもしれません。
疑似コードで、私は探しています
#first, calculate weighted value
for each row:
weighted jobs = weight * jobs
#then, for each city, sum these weights and divide by the count (sum of weights)
for each city:
sum(weighted jobs)/sum(weight)
「都市ごと」の部分をカスタム集計関数に組み込み、グループ レベルの集計にアクセスする方法がわかりません。
モックデータ:
import pandas as pd
import numpy as np
np.random.seed(43)
## prep mock data
N = 100
industry = ['utilities','sales','real estate','finance']
city = ['sf','san mateo','oakland']
weight = np.random.randint(low=5,high=40,size=N)
jobs = np.random.randint(low=1,high=20,size=N)
ind = np.random.choice(industry, N)
cty = np.random.choice(city, N)
df_city =pd.DataFrame({'industry':ind,'city':cty,'weight':weight,'jobs':jobs})