これが私が扱っているデータフレームの例です
level Income cumpop
1 17995.50 0.028405
2 20994.75 0.065550
3 29992.50 0.876185
4 41989.50 2.364170
5 53986.50 4.267305
6 65983.50 6.323390
7 77980.51 8.357625
8 89977.50 10.238910
9 101974.50 11.923545
10 113971.51 13.389680
11 125968.49 14.659165
12 137965.50 15.753850
13 149962.52 16.673735
14 161959.50 17.438485
15 173956.50 18.093985
16 185953.52 18.640235
17 197950.52 19.099085
18 209947.52 19.514235
19 221944.50 19.863835
20 233941.50 20.169735
21 251936.98 20.628585
22 275931.00 20.936670
23 383904.00 21.850000
この特定の国の全人口は、収入によって分類され、対応する 23 の「レベル」にグループ化されています。変数は、そのIncome
レベルのすべてのメンバーの平均収入です (これは、たとえば、10 パーセンタイルの収入が 17995.50 であると言うのとは大きく異なります)。
cumpop
しかし、各レベルの人口サイズには一貫性がありません (つまり、累積人口の違いを見ると、これに気付くでしょう)。最終的には、変数 の補間された十分位数を与える 10 行のデータ フレームを構築したいと考えていますIncome
。これにより、たとえば、「人口の最も貧しい 10% が平均して 28,000 を作っている」または「それらは人口の 20 ~ 30 パーセンタイルでは、平均して 41,000 インチ程度になります。したがって、効果的に、これらの 23 レベルを同じ人口サイズの 10 レベル (総人口として cumpop[23] を取る) に減らしたいと考えています。これには、いくつかの補間が必要です。
この種の経験的累積分布関数の生成/補間を行うライブラリを探してみましたが、非常に便利なようですが、上記のように対象にecdf
適用する方法がわかりません。Income
cumpop
ここでいくつかの指示をいただければ幸いです。