5

Pythonの10進型の値をpandas TimeSeries/DataFrameオブジェクトに格納する必要があります。TimeSeries / DataFrameで「groupby」と「mean」を使用すると、Pandasでエラーが発生します。floatに基づく次のコードは適切に機能します。

[0]: by = lambda x: lambda y: getattr(y, x)

[1]: rng = date_range('1/1/2000', periods=40, freq='4h')

[2]: rnd = np.random.randn(len(rng))

[3]: ts = TimeSeries(rnd, index=rng)

[4]: ts.groupby([by('year'), by('month'), by('day')]).mean()
2000  1  1    0.512422
         2    0.447235
         3    0.290151
         4   -0.227240
         5    0.078815
         6    0.396150
         7   -0.507316

しかし、floatの代わりに10進値を使用して同じことを行うと、エラーが発生します。

[5]: rnd = [Decimal(x) for x in rnd]       

[6]: ts = TimeSeries(rnd, index=rng, dtype=Decimal)

[7]: ts.groupby([by('year'), by('month'), by('day')]).mean()  #Crash!

Traceback (most recent call last):
File "C:\Users\TM\Documents\Python\tm.py", line 100, in <module>
print ts.groupby([by('year'), by('month'), by('day')]).mean()
File "C:\Python27\lib\site-packages\pandas\core\groupby.py", line 293, in mean
return self._cython_agg_general('mean')
File "C:\Python27\lib\site-packages\pandas\core\groupby.py", line 365, in _cython_agg_general
raise GroupByError('No numeric types to aggregate')
pandas.core.groupby.GroupByError: No numeric types to aggregate

エラーメッセージは「GroupByError('集計する数値タイプがありません')」です。10進値を含むTimeSeriesまたはDataFrameで、sum、mean、quantileonなどの標準的な集計を使用する機会はありますか?

なぜそれが機能しないのですか?それが不可能な場合、同じように高速な代替手段を持つ機会がありますか?

編集:他のほとんどの関数(最小、最大、中央値など)は正常に機能しますが、私が必死に必要とする平均関数ではないことに気づきました:-(。

4

1 に答える 1

11
import numpy as np
ts.groupby([by('year'), by('month'), by('day')]).apply(np.mean)
于 2012-07-12T22:26:18.750 に答える