3

確率でデータにインデックスを付けようとしています(単純なヒストグラムで推定)。目的は、あるしきい値よりも低い確率でシリーズ内のアイテムを選択することです。

たとえば、一連の整数値があります。

import pandas as pnd
import numpy  as np

series = pnd.Series(np.random.poisson(5, size = 100))

次に、次のようにヒストグラムを計算します。

tmp  = {"series" : series, "count" : np.ones(len(series))}
hist = pnd.DataFrame(tmp).groupby("series").sum()
freq = hist / hist.sum()

これで、各結果の頻度が結果と一連の結果によってインデックス化されました。私は今2つの質問があります:

  • seriesによって定義された結果/頻度のマッピングによってインデックスを作成する方法はありfreqますか?
  • これを行うことができた場合、ある値よりも高い頻度の結果のみを選択するにはどうすればよいですか?

ありがとう。

4

1 に答える 1

3

はい、mapシリーズ方式を使用します。

In [16]: series.map(freq['count'])
Out[16]: 
0     0.12
1     0.06
2     0.20
3     0.11
4     0.02
5     0.13
6     0.14
7     0.11
8     0.12
9     0.16
10    0.20
<snip>

その後、次のことができます。

In [22]: series[series.map(freq['count']) > 0.16]
Out[22]: 
2     4
10    4
11    4
22    4
27    4
31    4
34    4
56    4
64    4
71    4
73    4
76    4
77    4
79    4
80    4
86    4
88    4
89    4
91    4
99    4
于 2012-04-13T22:27:10.817 に答える