python - スライディングウィンドウでの Pandas ローリング計算 (不等間隔)

Question

不均一な時系列データがあるとします。

import pandas as pd
import random as randy
ts = pd.Series(range(1000),index=randy.sample(pd.date_range('2013-02-01 09:00:00.000000',periods=1e6,freq='U'),1000)).sort_index()
print ts.head()


2013-02-01 09:00:00.002895    995
2013-02-01 09:00:00.003765    499
2013-02-01 09:00:00.003838    797
2013-02-01 09:00:00.004727    295
2013-02-01 09:00:00.006287    253

これを取得するために、1 ミリ秒のウィンドウでローリングサムを実行したいとします。

2013-02-01 09:00:00.002895    995
2013-02-01 09:00:00.003765    499 + 995
2013-02-01 09:00:00.003838    797 + 499 + 995
2013-02-01 09:00:00.004727    295 + 797 + 499
2013-02-01 09:00:00.006287    253

現在、私はすべてを long にキャストし、これを cython で行っていますが、これは純粋な pandas で可能ですか? .asfreq('U') のようなことを実行してから、従来の関数を入力して使用できることは承知していますが、行数がおもちゃの数を超えると、これはスケーリングされません。

参考までに、高速ではないハックな Cython バージョンを次に示します。

%%cython
import numpy as np
cimport cython
cimport numpy as np

ctypedef np.double_t DTYPE_t

def rolling_sum_cython(np.ndarray[long,ndim=1] times, np.ndarray[double,ndim=1] to_add, long window_size):
    cdef long t_len = times.shape[0], s_len = to_add.shape[0], i =0, win_size = window_size, t_diff, j, window_start
    cdef np.ndarray[DTYPE_t, ndim=1] res = np.zeros(t_len, dtype=np.double)
    assert(t_len==s_len)
    for i in range(0,t_len):
        window_start = times[i] - win_size
        j = i
        while times[j]>= window_start and j>=0:
            res[i] += to_add[j]
            j-=1
    return res

少し大きなシリーズでこれを示します。

ts = pd.Series(range(100000),index=randy.sample(pd.date_range('2013-02-01 09:00:00.000000',periods=1e8,freq='U'),100000)).sort_index()

%%timeit
res2 = rolling_sum_cython(ts.index.astype(int64),ts.values.astype(double),long(1e6))
1000 loops, best of 3: 1.56 ms per loop

score 11 · Accepted Answer

この種の問題のほとんどは、cumsum および二分探索で解決できます。

from datetime import timedelta

def msum(s, lag_in_ms):
    lag = s.index - timedelta(milliseconds=lag_in_ms)
    inds = np.searchsorted(s.index.astype(np.int64), lag.astype(np.int64))
    cs = s.cumsum()
    return pd.Series(cs.values - cs[inds].values + s[inds].values, index=s.index)

res = msum(ts, 100)
print pd.DataFrame({'a': ts, 'a_msum_100': res})


                            a  a_msum_100
2013-02-01 09:00:00.073479  5           5
2013-02-01 09:00:00.083717  8          13
2013-02-01 09:00:00.162707  1          14
2013-02-01 09:00:00.171809  6          20
2013-02-01 09:00:00.240111  7          14
2013-02-01 09:00:00.258455  0          14
2013-02-01 09:00:00.336564  2           9
2013-02-01 09:00:00.536416  3           3
2013-02-01 09:00:00.632439  4           7
2013-02-01 09:00:00.789746  9           9

[10 rows x 2 columns]

NaN を処理する方法が必要であり、アプリケーションによっては、遅延時間の現在の値が必要になる場合があります (つまり、kdb+ bin と np.searchsorted の使用の違い)。

お役に立てれば。

score 9 · Accepted Answer

これは古い質問ですが、グーグルからこれに出くわした人のために：パンダ0.19では、これは関数として組み込まれています

http://pandas.pydata.org/pandas-docs/stable/computation.html#time-aware-rolling

したがって、1ミリ秒のウィンドウを取得するには、次のようにしてRollingオブジェクトを取得するように見えます

dft.rolling('1ms')

そして合計は

dft.rolling('1ms').sum()

score 1 · Accepted Answer

おそらく、次を使用する方が理にかなっていますrolling_sum。

pd.rolling_sum(ts, window=1, freq='1ms')

score 0 · Accepted Answer

このようなものはどうですか：

1 ミリ秒のオフセットを作成します。

In [1]: ms = tseries.offsets.Milli()

timeseries と同じ長さの一連のインデックス位置を作成します。

In [2]: s = Series(range(len(ts)))

ts シリーズから現在の時刻にインデックスを付けるラムダ関数を適用します。この関数は、間のすべての ts エントリの合計を返しますx - ms and x。

In [3]: s.apply(lambda x: ts.between_time(start_time=ts.index[x]-ms, end_time=ts.index[x]).sum())

In [4]: ts.head()
Out[4]:
2013-02-01 09:00:00.000558    348
2013-02-01 09:00:00.000647    361
2013-02-01 09:00:00.000726    312
2013-02-01 09:00:00.001012    550
2013-02-01 09:00:00.002208    758

上記の関数の結果:

python - スライディング ウィンドウでの Pandas ローリング計算 (不等間隔)

4 に答える 4

Related

Reference

python - スライディングウィンドウでの Pandas ローリング計算 (不等間隔)