104

IPython には次のデータ フレームがあり、各行は単一の株式です。

In [261]: bdata
Out[261]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21210 entries, 0 to 21209
Data columns:
BloombergTicker      21206  non-null values
Company              21210  non-null values
Country              21210  non-null values
MarketCap            21210  non-null values
PriceReturn          21210  non-null values
SEDOL                21210  non-null values
yearmonth            21210  non-null values
dtypes: float64(2), int64(1), object(4)

「年月」列の各日付ごとに、すべてのキャップ加重平均リターンを計算する groupby 操作を適用したいと考えています。

これは期待どおりに機能します。

In [262]: bdata.groupby("yearmonth").apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
Out[262]:
yearmonth
201204      -0.109444
201205      -0.290546

しかし、これらの値を元のデータ フレームのインデックスに「ブロードキャスト」して、日付が一致する定数列として保存したいと考えています。

In [263]: dateGrps = bdata.groupby("yearmonth")

In [264]: dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/mnt/bos-devrnd04/usr6/home/espears/ws/Research/Projects/python-util/src/util/<ipython-input-264-4a68c8782426> in <module>()
----> 1 dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())

TypeError: 'DataFrameGroupBy' object does not support item assignment

この素朴な割り当てはうまくいかないはずです。しかし、groupby 操作の結果を親データフレームの新しい列に割り当てるための「正しい」パンダのイディオムは何ですか?

最後に、groupby 操作の出力と一致する日付を持つすべてのインデックスの定数値を繰り返すよりも、"MarketReturn" という名前の列が必要です。

これを達成するための1つのハックは次のとおりです。

marketRetsByDate  = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())

bdata["MarketReturn"] = np.repeat(np.NaN, len(bdata))

for elem in marketRetsByDate.index.values:
    bdata["MarketReturn"][bdata["yearmonth"]==elem] = marketRetsByDate.ix[elem]

しかし、これは遅く、悪く、非 Pythonic です。

4

5 に答える 5

83
In [97]: df = pandas.DataFrame({'month': np.random.randint(0,11, 100), 'A': np.random.randn(100), 'B': np.random.randn(100)})

In [98]: df.join(df.groupby('month')['A'].sum(), on='month', rsuffix='_r')
Out[98]:
           A         B  month       A_r
0  -0.040710  0.182269      0 -0.331816
1  -0.004867  0.642243      1  2.448232
2  -0.162191  0.442338      4  2.045909
3  -0.979875  1.367018      5 -2.736399
4  -1.126198  0.338946      5 -2.736399
5  -0.992209 -1.343258      1  2.448232
6  -1.450310  0.021290      0 -0.331816
7  -0.675345 -1.359915      9  2.722156
于 2012-08-30T16:47:17.243 に答える
46

groupby() を使用するときの原則として、.transform() 関数を使用すると、pandas は元のテーブルと同じ長さのテーブルを返します。.sum() や .first() などの他の関数を使用すると、パンダは各行がグループであるテーブルを返します。

これが適用でどのように機能するかはわかりませんが、変換で精巧なラムダ関数を実装するのはかなり難しい場合があるため、必要な変数を作成し、それらを元のデータセットに配置してから、そこで操作を行うのが最も役立つ戦略です。

まず、あなたが何をしようとしているのか理解できたら、各グループの合計時価総額を計算できます。

bdata['group_MarketCap'] = bdata.groupby('yearmonth')['MarketCap'].transform('sum')

これにより、各グループの時価総額の合計を含む元のデータに「group_MarketCap」という列が追加されます。次に、加重値を直接計算できます。

bdata['weighted_P'] = bdata['PriceReturn'] * (bdata['MarketCap']/bdata['group_MarketCap'])

最後に、同じ変換関数を使用して各グループの加重平均を計算します。

bdata['MarketReturn'] = bdata.groupby('yearmonth')['weighted_P'].transform('sum')

私はこの方法で変数を作成する傾向があります。1 つのコマンドですべてを実行できる場合もありますが、常に groupby() で機能するとは限りません。ほとんどの場合、パンダは新しいオブジェクトをインスタンス化して、データセット全体のスケールで操作する必要があるためです (つまり、まだ存在しない場合は、2 つの列を一緒に追加します)。

お役に立てれば :)

于 2016-08-19T00:08:08.797 に答える
25

transform(集計の代わりに)方法を提案できますか?元の例で使用すると、必要なこと(ブロードキャスト)を実行する必要があります。

于 2012-09-08T22:35:52.577 に答える