0

正規化されたパーセンテージ情報を持つデータフレームがあります。例えば。

wordCount 数値 パーセント

2.0 1282 0.267345

1.0 888 0.185213

3.0 1124 0.170791

4.0 1250 0.152877

5.0 554 0.084864

6.0 333 0.058904

7.0 160 0.024290

8.0 111 0.016851

すべてのパーセンテージは 1 まで合計できます。データフレームは 6000 エントリです。そこから 2000 のサンプルを取得したいと考えています。2000 年のサンプルは、可能な限りバランスがとれている必要があります。

これには、少量のパーセンテージ データを最大限に含め、大量のパーセンテージ データを最小限に抑える必要があります。

やり方がわかりません。

例えば。2000 には wordCount 8.0 からのすべてのデータがあり、2.0 からの最小データがあります。

ガンマ分布をプロットすると、線はできるだけ平らになります。

4

1 に答える 1