math - サンプルデータのスパイクを取り除く

Question

どうすれば、離散データセットのスパークデータを「よりスムーズに」削除できますか?

たとえば、

ここに画像の説明を入力

20000 で 2 つのスパークがありますが、次の 600 でのスパークもスパークと見なされます。

非常に高いものをゼロにすることができました。

a = 2
b = 5
beta_dist = RealDistribution('beta', [a, b])
f(x) = x / 19968
normalized_insertions = [f(i) for i in insertions]

insertions_pairs = [(i, beta_dist.distribution_function(i)) for i in normalized_insertions]
plot_b = beta_dist.plot()

show(list_plot(insertions_pairs)+plot_b)

下位のものについてはどうすればよいかわかりません。最大値は 100 に到達する必要があります。おそらく、ベータ分布のパラメーターをもう少しいじる必要がありますか?

現在、次のようになっています。ここに画像の説明を入力

可能であれば、説明の参考として sage を使用してください。

score 2 · Accepted Answer

おそらく 3 点または 5 点のメディアンフィルターを使用できます。これにより、上記のデータのように孤立した外れ値が削除されます。

score 1 · Accepted Answer

カルマンフィルターを見る必要があるかもしれません。これにより、データの偏差が決定され、ガウス平均で平滑化されます。したがって、20,000 の数値はほとんど効果がありませんが、600 の数値はより効果的ですが、データの一貫性によって大幅にオーバーテイクされます。数学が好きなら:
http://www.cs.berkeley.edu/~pabbeel/cs287-fa11/slides/Smoother_KalmanSmoother--DRAFT.pdf
それ以外の場合:
http://interactive-matter.eu/blog/2009/12 /18/filtering-sensor-data-with-a-kalman-filter/

math - サンプルデータのスパイクを取り除く

2 に答える 2

Related

Reference