タイムスタンプが部分的に重複する 2 つの異なる時系列があります。
import scikits.timeseries as ts
from datetime import datetime
a = ts.time_series([1,2,3], dates=[datetime(2010,10,20), datetime(2010,10,21), datetime(2010,10,23)], freq='D')
b = ts.time_series([4,5,6], dates=[datetime(2010,10,20), datetime(2010,10,22), datetime(2010,10,23)], freq='D')
次のデータを表します。
Day: 20. 21. 22. 23.
a: 1 2 - 3
b: 4 - 5 6
欠損値を無視しながら、係数 a(0.3) と b(0.7) を使用して毎日加重平均を計算したいと思います。
Day 20.: (0.3 * 1 + 0.7 * 4) / (0.3 + 0.7) = 3.1 / 1. = 3.1
Day 21.: (0.3 * 2 ) / (0.3 ) = 0.6 / 0.3 = 2
Day 22.: ( 0.7 * 5) / ( 0.7) = 3.5 / 0.7 = 5
Day 23.: (0.3 * 3 + 0.7 * 6) / (0.3 + 0.7) = 3.1 / 1. = 5.1
これらの時系列を最初に揃えようとしたとき:
a1, b1 = ts.aligned(a, b)
私は正しくマスクされた時系列を取得します:
timeseries([1 2 -- 3],
dates = [20-Oct-2010 ... 23-Oct-2010],
freq = D)
timeseries([4 -- 5 6],
dates = [20-Oct-2010 ... 23-Oct-2010],
freq = D)
しかし、私が行うa1 * 0.3 + b1 * 0.7
と、1つの時系列にのみ存在する値は無視されます:
timeseries([3.1 -- -- 5.1],
dates = [20-Oct-2010 ... 23-Oct-2010],
freq = D)
待ちに待ったものを受け取るにはどうすればいいですか?
timeseries([3.1 2. 5. 5.1],
dates = [20-Oct-2010 ... 23-Oct-2010],
freq = D)
編集:答えは、異なる重みと異なる欠損値を持つ2つ以上の初期時系列にも適用できるはずです。
したがって、重み T1(0.1)、T2(0.2)、T3(0.3)、および T4(0.4) を持つ 4 つの時系列がある場合、特定のタイムスタンプでの重みは次のようになります。
| T1 | T2 | T3 | T4 |
weight | 0.1 | 0.2 | 0.3 | 0.4 |
-------------------------------------
all present | 10% | 20% | 30% | 40% |
T1 missing | | 22% | 33% | 45% |
T1,T2 miss. | | | 43% | 57% |
T4 missing | 17% | 33% | 50% | |
etc.