28
                    A        B
DATE                 
2013-05-01        473077    71333
2013-05-02         35131    62441
2013-05-03           727    27381
2013-05-04           481     1206
2013-05-05           226     1733
2013-05-06           NaN     4064
2013-05-07           NaN    41151
2013-05-08           NaN     8144
2013-05-09           NaN       23
2013-05-10           NaN       10

上記のデータフレームがあるとします。列AとBの平均である同じインデックスを持つシリーズを取得する最も簡単な方法は何ですか? 平均は NaN 値を無視する必要があります。ねじれは、このソリューションがデータフレームへの新しい列の追加に柔軟である必要があるということです。

私が一番近くに来たのは

df.sum(axis=1) / len(df.columns)

ただし、これは NaN 値を無視していないようです

(注:私はまだパンダライブラリに少し慣れていないので、私の限られた脳が単に見ていない明らかな方法があると推測しています)

4

1 に答える 1

61

単純に使用df.mean()すると、NaN に関して Do The Right Thing(tm) が実行されます。

>>> df
                 A      B
DATE                     
2013-05-01  473077  71333
2013-05-02   35131  62441
2013-05-03     727  27381
2013-05-04     481   1206
2013-05-05     226   1733
2013-05-06     NaN   4064
2013-05-07     NaN  41151
2013-05-08     NaN   8144
2013-05-09     NaN     23
2013-05-10     NaN     10
>>> df.mean(axis=1)
DATE
2013-05-01    272205.0
2013-05-02     48786.0
2013-05-03     14054.0
2013-05-04       843.5
2013-05-05       979.5
2013-05-06      4064.0
2013-05-07     41151.0
2013-05-08      8144.0
2013-05-09        23.0
2013-05-10        10.0
dtype: float64

df[["A", "B"]].mean(axis=1)無視する他の列がある場合に使用できます。

于 2013-05-22T10:35:54.240 に答える