python - パンダで複数日1分の時系列をどのようにきれいにして前方に埋めるのですか?

Question

複数日にまたがる 1 分間の在庫データを含む csv ファイルがあります。毎日 9:30 から 16:00 まで実行されます。

時系列の一部の分が欠落しています: (ここでは 2013-09-16 09:32:00 と 2013-09-17 09:31:00 が欠落しています)

2013-09-16 09:30:00,461.01,461.49,461,461,183507
2013-09-16 09:31:00,460.82,461.6099,460.39,461.07,212774
2013-09-16 09:33:00,460.0799,460.88,458.97,459.2401,207880
2013-09-16 09:34:00,458.97,460.08,458.8,460.04,148121
...
2013-09-16 15:59:00,449.72,450.0774,449.59,449.95,146399
2013-09-16 16:00:00,450.12,450.12,449.65,449.65,444594
2013-09-17 09:30:00,448,448,447.5,447.96,173624
2013-09-17 09:32:00,450.6177,450.9,449.05,449.2701,268715
2013-09-17 09:33:00,451.39,451.96,450.58,450.7061,197019
...
...

パンダでは、毎分存在するようにシリーズを前方に埋めるにはどうすればよいですか? 私はこのように見えるはずです：

2013-09-16 09:30:00,461.01,461.49,461,461,183507
2013-09-16 09:31:00,460.82,461.6099,460.39,461.07,212774
2013-09-16 09:32:00,460.82,461.6099,460.39,461.07,212774 <-- forward filled
2013-09-16 09:33:00,460.0799,460.88,458.97,459.2401,207880
2013-09-16 09:34:00,458.97,460.08,458.8,460.04,148121
...
2013-09-16 15:59:00,449.72,450.0774,449.59,449.95,146399
2013-09-16 16:00:00,450.12,450.12,449.65,449.65,444594
2013-09-17 09:30:00,448,448,447.5,447.96,173624
2013-09-17 09:31:00,448,448,447.5,447.96,173624 <-- forward filled
2013-09-17 09:32:00,450.6177,450.9,449.05,449.2701,268715
2013-09-17 09:33:00,451.39,451.96,450.58,450.7061,197019
...

また、複数の連続した分が欠落している場合も考慮する必要があります...

score 4 · Accepted Answer

最初の 4 行をデータフレームにコピーしました。

Out[49]:
                    0         1         2       3         4       5
0 2013-09-16 09:30:00  461.0100  461.4900  461.00  461.0000  183507
1 2013-09-16 09:31:00  460.8200  461.6099  460.39  461.0700  212774
2 2013-09-16 09:33:00  460.0799  460.8800  458.97  459.2401  207880
3 2013-09-16 09:34:00  458.9700  460.0800  458.80  460.0400  148121

それから

df1 = df.set_index(keys=[0]).resample('1min', fill_method='ffill')
df1

Out[52]:
                            1         2       3         4       5
0                                                                
2013-09-16 09:30:00  461.0100  461.4900  461.00  461.0000  183507
2013-09-16 09:31:00  460.8200  461.6099  460.39  461.0700  212774
2013-09-16 09:32:00  460.8200  461.6099  460.39  461.0700  212774
2013-09-16 09:33:00  460.0799  460.8800  458.97  459.2401  207880
2013-09-16 09:34:00  458.9700  460.0800  458.80  460.0400  148121

これは、複数の欠損値も処理し、それらを前方に埋めます。

したがって、次のようなデータがある場合

2013-09-17 09:30:00,448,448,447.5,447.96,173624
2013-09-17 09:33:00,451.39,451.96,450.58,450.7061,197019

そして、これが与える前と同じことをします：

Out[55]:
                          1       2       3         4       5
0                                                            
2013-09-17 09:30:00  448.00  448.00  447.50  447.9600  173624
2013-09-17 09:31:00  448.00  448.00  447.50  447.9600  173624
2013-09-17 09:32:00  448.00  448.00  447.50  447.9600  173624
2013-09-17 09:33:00  451.39  451.96  450.58  450.7061  197019

ここで重要なことは、datetimeindex が必要です。それを列として保持したい場合はdrop=False、set_index.

score 2 · Accepted Answer

これは、さまざまな日を考慮して、毎日入力する必要がないため、少しうまくいくかもしれません。

データフレームを作成するだけです：

list1 = [["2013-09-16 09:29:00","461.01","461.49","461","461","183507"],
["2013-09-16 09:31:00", "460.82", "461.6099", "460.39", "461.07", "212774"], 
["2013-09-16 09:34:00", "460.0799", "460.88", "458.97", "459.2401", "207880"], 
["2013-09-17 09:35:00", "458.97", "460.08", "458.8", "460.04", "148121"]]

cols = ['date','price1','price2','price3', 'price4', 'price5']

df = DataFrame(list1, columns=cols)

インデックスを日付列に設定する:

df['date'] = pd.to_datetime(df['date'])

df.set_index('date', inplace=True)

インデックスを再作成して穴を埋め、次に結果の NaN 値を順方向に埋めてから、午前 9 時 30 分から午後 4 時までの時間外にすべてドロップします。

df2 = df.reindex(pd.date_range(df.index[0], df.index[-1], freq='Min')).ffill().ix[df2.index.indexer_between_time(pd.datetime(year=1,month=1,day=1,hour=9,minute=30).time(), datetime.time(16))]

これらのステートメントは、順番に分割できます。

まず、インデックスが開始日時から終了日時まで 1 分の間隔で対応するように、データフレームのインデックスを再作成します。

df2 = df.reindex(pd.date_range(df.index[0], df.index[-1], freq='Min'))

これにより、新しいインデックスが古いインデックスと一致しない多くの NaN 値が作成されます。他にもオプションがありますが、これを ffill (フォワードフィル) で埋めます。

df2.ffill(inplace=True)

最後に、午前 9 時 30 分から午後 4 時までの時間範囲外の時間を削除します。

df_final = df2.ix[df2.index.indexer_between_time(pd.datetime(year=1,month=1,day=1,hour=9,minute=30).time(), datetime.time(16))]

.time() は 9.5 を必要とせず、ドキュメントもまばらなので、時刻の値を 9:30AM に設定して datetime オブジェクトを作成し、.time() を使用してこれを取得しました。もっと良い方法があるはずです。

python - パンダで複数日1分の時系列をどのようにきれいにして前方に埋めるのですか?

2 に答える 2

Related

Reference