1

これが私が扱っているデータフレームの例です

 level    Income    cumpop
 1      17995.50  0.028405
 2      20994.75  0.065550
 3      29992.50  0.876185
 4      41989.50  2.364170
 5      53986.50  4.267305
 6      65983.50  6.323390
 7      77980.51  8.357625
 8      89977.50 10.238910
 9     101974.50 11.923545
10     113971.51 13.389680
11     125968.49 14.659165
12     137965.50 15.753850
13     149962.52 16.673735
14     161959.50 17.438485
15     173956.50 18.093985
16     185953.52 18.640235
17     197950.52 19.099085
18     209947.52 19.514235
19     221944.50 19.863835
20     233941.50 20.169735
21     251936.98 20.628585
22     275931.00 20.936670
23     383904.00 21.850000

この特定の国の全人口は、収入によって分類され、対応する 23 の「レベル」にグループ化されています。変数は、そのIncomeレベルのすべてのメンバーの平均収入です (これは、たとえば、10 パーセンタイルの収入が 17995.50 であると言うのとは大きく異なります)。

cumpopしかし、各レベルの人口サイズには一貫性がありません (つまり、累積人口の違いを見ると、これに気付くでしょう)。最終的には、変数 の補間された十分位数を与える 10 行のデータ フレームを構築したいと考えていますIncome。これにより、たとえば、「人口の最も貧しい 10% が平均して 28,000 を作っている」または「それらは人口の 20 ~ 30 パーセンタイルでは、平均して 41,000 インチ程度になります。したがって、効果的に、これらの 23 レベルを同じ人口サイズの 10 レベル (総人口として cumpop[23] を取る) に減らしたいと考えています。これには、いくつかの補間が必要です。

この種の経験的累積分布関数の生成/補間を行うライブラリを探してみましたが、非常に便利なようですが、上記のように対象にecdf適用する方法がわかりません。Incomecumpop

ここでいくつかの指示をいただければ幸いです。

4

1 に答える 1