4

Pandas では時系列インデックスの重複はまだ許可されていません ( https://github.com/pydata/pandas/issues/643 ) が、まもなく追加される予定です。マルチインデックスタグ/列によって重複した時間を持つデータセットにローリングウィンドウ平均を適用する良い方法があるかどうか疑問に思っています

基本的に、エポックタイム、階層タグ (tag1、tag2)、および所要時間で構成される順序付けられていないイベントの csv があります。小さなサンプル:

 epochTimeMS,event,tag,timeTakenMS
 1331782842801,event1,tag1,16
 1331782841535,event1,tag2,1278
 1331782842801,event1,tag1,17
 1331782842381,event2,tag1,436

私がやりたいことは、イベントおよびイベント+タグによって、さまざまなミリ秒ウィンドウでローリング手段を構築およびグラフ化することです。これは Pandas で実現する必要があるようですが、最初に時系列インデックスが複製されるまで待つ必要があるかどうかはわかりません。これを今すぐハッキングすることについて何か考えはありますか?

4

1 に答える 1

4

今、あなたを止めるものは何もありません。

In [17]: idf = df.set_index(['tag', 'epochTimeMS'], verify_integrity=False).sort_index()

In [18]: idf
Out[18]: 
                     event  timeTakenMS
tag  epochTimeMS                       
tag1 1331782842381  event2          436
     1331782842801  event1           16
     1331782842801  event1           17
tag2 1331782841535  event1         1278

In [20]: idf.ix['tag1']
Out[20]: 
                event  timeTakenMS
epochTimeMS                       
1331782842381  event2          436
1331782842801  event1           16
1331782842801  event1           17

タイムスタンプで特定の値にアクセスすると例外が発生しますが(おっしゃるように、これは改善される予定です)、確かにデータを操作できます。さて、固定長(時間空間)のウィンドウが必要な場合、それはまだ十分にサポートされていませんが、ここで問題を作成しました:

https://github.com/pydata/pandas/issues/936

アプリケーションのAPI要件についてメーリングリストで話すことができれば、現在時系列機能に積極的に取り組んでいるので、私とみんなにとって役立つでしょう。

于 2012-03-18T21:43:52.637 に答える