c - 単一の解析での計算分散と標準偏差

Question

各パケットに 2 つのタイムスタンプを持つ非常に大きなネットワークトレースファイルがあります。各ペアの連続するパケットのタイムスタンプの差を計算します。

delta_ts1 = ts1(packet N) - ts1(packet N-1)
delta_ts2 = ts2(packet N) - ts2(packet N-1)

ts_2 が参照値であり、ts_1 を ts_2 に対してテストしたいとします。

そして分散 ts_variance = (delta_ts2 - mean_ts)^2/packet_count

上記のアプローチの問題は、ファイルの最後に到達するまで平均値が得られないことです.1回の解析でこれを達成したい.私は以下のようなアプローチを使用することを考えています.

running_mean_till_now += ts2/packet_count_till_now

ts_variance = (delta_ts2 - running_mean_till_now)^2/packet_count_till_now

このアプローチは受け入れられますか? このアプローチを使用すると、推定された分散、したがって標準偏差はどの程度正確になりますか?

score 2 · Accepted Answer

式は完全に正しくありません。ここでは、使用できるオンラインアルゴリズムについて説明します。

2 に答える 2