正規化されたパーセンテージ情報を持つデータフレームがあります。例えば。
wordCount 数値 パーセント
2.0 1282 0.267345
1.0 888 0.185213
3.0 1124 0.170791
4.0 1250 0.152877
5.0 554 0.084864
6.0 333 0.058904
7.0 160 0.024290
8.0 111 0.016851
すべてのパーセンテージは 1 まで合計できます。データフレームは 6000 エントリです。そこから 2000 のサンプルを取得したいと考えています。2000 年のサンプルは、可能な限りバランスがとれている必要があります。
これには、少量のパーセンテージ データを最大限に含め、大量のパーセンテージ データを最小限に抑える必要があります。
やり方がわかりません。
例えば。2000 には wordCount 8.0 からのすべてのデータがあり、2.0 からの最小データがあります。
ガンマ分布をプロットすると、線はできるだけ平らになります。