確率でデータにインデックスを付けようとしています(単純なヒストグラムで推定)。目的は、あるしきい値よりも低い確率でシリーズ内のアイテムを選択することです。
たとえば、一連の整数値があります。
import pandas as pnd
import numpy as np
series = pnd.Series(np.random.poisson(5, size = 100))
次に、次のようにヒストグラムを計算します。
tmp = {"series" : series, "count" : np.ones(len(series))}
hist = pnd.DataFrame(tmp).groupby("series").sum()
freq = hist / hist.sum()
これで、各結果の頻度が結果と一連の結果によってインデックス化されました。私は今2つの質問があります:
series
によって定義された結果/頻度のマッピングによってインデックスを作成する方法はありfreq
ますか?- これを行うことができた場合、ある値よりも高い頻度の結果のみを選択するにはどうすればよいですか?
ありがとう。