1

セットのリストと、それぞれの基本的な統計 (アイテム数、最小、最大、平均、stddev) があります。組み合わせたすべてのセットについて同じ統計を計算したいと思います。合計カウント、最小最大、平均の計算は簡単ですが、標準偏差の合計を計算する方法がわかりません。

データは次のようになります。

Count        Max      Min      Mean      Stddev
1,027,671    781      68       57.8      32.79
  839,473    552      54       61.3      48.53
3,012,102    890      41       64.9      41.92

すべてのセットの統計をまとめて生成する:

4,879,246    890      41       62.8      ???
4

2 に答える 2

2

標準偏差が既に計算されているデータを消費するだけでなく、分布を維持するコードを書いていると思います。標準の dev は、コンピューター用に維持するのが本当に自然なパラメーターではありません。代わりに、アイテムの数、合計、および二乗されたアイテムの合計を維持する必要があります。その後、これら 3 つの生の情報から分布の平均と標準偏差を簡単に計算できます。ここのコードでこの戦略を使用します。add 操作は、2 つのディストリビューションのマージをサポートしています。その実装がいかに単純であるかに注目してください。http://github.com/rrenaud/dominionstats/blob/master/stats.py#L17 .

于 2012-12-15T21:37:58.330 に答える
0

お持ちのデータから正確に計算することは不可能だと思います。問題は、標準偏差が、個々の平均と必ずしも同じではない結合されたデータセットの平均と、正確ではない(しかし近似値である可能性がある)平均からの各ポイントの距離に依存することです。アクセス。

于 2012-12-15T21:30:38.833 に答える