私は2週間前に学び始めましたが、今はちょっと行き詰まっています。私はこのように見える2つの時系列を持っています:
2011-01-09 00:00:00+00:00 7.430126
2011-01-09 01:00:00+00:00 6.793855
2011-01-09 02:00:00+00:00 6.675949
2011-01-09 03:00:00+00:00 6.756636
2011-01-09 04:00:00+00:00 6.875174
2011-01-09 05:00:00+00:00 5.432611
2011-01-09 06:00:00+00:00 6.059197
2011-01-09 21:00:00+00:00 5.338928
2011-01-09 22:00:00+00:00 5.259672
2011-01-09 23:00:00+00:00 5.247196
2011-01-10 00:00:00+00:00 5.889274
2011-01-10 01:00:00+00:00 6.133871
2011-01-10 02:00:00+00:00 6.111958
2011-01-10 03:00:00+00:00 5.873732
2011-01-10 04:00:00+00:00 5.627684
2011-01-10 05:00:00+00:00 5.265644
2011-01-10 06:00:00+00:00 5.505559
2011-01-10 21:00:00+00:00 3.835050
2011-01-10 22:00:00+00:00 3.879653
2011-01-10 23:00:00+00:00 4.034543
2011-01-11 00:00:00+00:00 4.844272
2011-01-11 01:00:00+00:00 4.670967
2011-01-11 02:00:00+00:00 4.584164
2011-01-11 03:00:00+00:00 4.786821
これは風速測定のデータであり、モデルデータと比較したいと思います。具体的には、夜間の風速(21.00〜6.00)を比較したいと思います。だから私は関数を定義しました:
def func(model, measure):
return (model-measure).mean()
さらに、データのループを作成しました。
mean_night = []
start = 7
for a in night:
mean_night.append(func(model, measure[start:(start+10)]))
start = start+11
if start>5378:
break
問題は、タイムインデックスが失われ、一部のデータ(たとえば、1日または1週間)が欠落しているため、DateRangeを使用してインデックスを再作成するのに問題が発生することです。最終的には、次のようになります。
date difference_means
2011-01-09 diff_1
2011-01-09 diff_2
等々。私はパンダ0.7.1を使用しています。サポートしてくれてありがとう!(そして私の悪い英語をお詫びします:P)