IPython には次のデータ フレームがあり、各行は単一の株式です。
In [261]: bdata
Out[261]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21210 entries, 0 to 21209
Data columns:
BloombergTicker 21206 non-null values
Company 21210 non-null values
Country 21210 non-null values
MarketCap 21210 non-null values
PriceReturn 21210 non-null values
SEDOL 21210 non-null values
yearmonth 21210 non-null values
dtypes: float64(2), int64(1), object(4)
「年月」列の各日付ごとに、すべてのキャップ加重平均リターンを計算する groupby 操作を適用したいと考えています。
これは期待どおりに機能します。
In [262]: bdata.groupby("yearmonth").apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
Out[262]:
yearmonth
201204 -0.109444
201205 -0.290546
しかし、これらの値を元のデータ フレームのインデックスに「ブロードキャスト」して、日付が一致する定数列として保存したいと考えています。
In [263]: dateGrps = bdata.groupby("yearmonth")
In [264]: dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
/mnt/bos-devrnd04/usr6/home/espears/ws/Research/Projects/python-util/src/util/<ipython-input-264-4a68c8782426> in <module>()
----> 1 dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
TypeError: 'DataFrameGroupBy' object does not support item assignment
この素朴な割り当てはうまくいかないはずです。しかし、groupby 操作の結果を親データフレームの新しい列に割り当てるための「正しい」パンダのイディオムは何ですか?
最後に、groupby 操作の出力と一致する日付を持つすべてのインデックスの定数値を繰り返すよりも、"MarketReturn" という名前の列が必要です。
これを達成するための1つのハックは次のとおりです。
marketRetsByDate = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
bdata["MarketReturn"] = np.repeat(np.NaN, len(bdata))
for elem in marketRetsByDate.index.values:
bdata["MarketReturn"][bdata["yearmonth"]==elem] = marketRetsByDate.ix[elem]
しかし、これは遅く、悪く、非 Pythonic です。