2

特定のパーセンタイル情報を取得する必要がある Excel のデータがたくさんあります。問題は、データセットを各値で構成する代わりに、データの数または「バケット」に関する情報を持っていることです。

たとえば、実際のデータ セットが 1,1,2,2,2,2,3,3,4,4,4 のようになっているとします。

私が持っているデータセットは次のとおりです。

Value    No. of occurrences
  1              2
  2              4
  3              2
  4              3

要約データを完全なデータ セットに展開することなく、パーセンタイル情報 (および中央値) を計算する簡単な方法はありますか? (これを行うと、Percentile(A1:A5, p) 関数を使用できることがわかります)

私のデータセットは非常に大きいため、これは重要です。データを展開すると、数十万行になり、数百のデータセットに対してそれを行う必要があります。

ヘルプ!

4

1 に答える 1

0

あなたの例の中央値は、 total の奇数を示しているため、非常に簡単ですNo. of occurrences。観測によると、中央値は 2 です。最後の 2 (シーケンスの 6 番目の値) に対して、[1,1,2,2,2] 以下の 5 つの値と [3, 3,4,4,4]。

これは、[2,4,2,3] の出現回数の配列を含む名前付き範囲は =(1+SUM(No._of_occurrences))/2どこにあるのかなどの式を使用して、要約データから計算できます。No._of_occurences

偶数のデータポイントを持つデータセットには中央値がないため、1 つのデータポイント (たとえば 4) を追加した結果は疑わしいものです。その場合、数式は 6.5 を返し、半分は無効な結果を示します (中間値が 2 つある)。ただし、これら 2 つの値を平均するかなり従来のアプローチを採用する場合、式の結果は 6 番目の [2] と 7 番目の [3] の値の平均、つまり 2.5 として解釈できます。

ビニングされた発生回数の個々の値に 100 を掛け、合計発生回数 [11] で割ると、各ビンが合計に寄与するパーセンテージが得られます。これらの累積合計により、各ビンの上限のパーセンタイルが得られます。下位 30 パーセンタイルを取ると、これは 2 番目のビンで発生するため、この場合は 2 です。下位 20 パーセンタイルと 50 パーセンタイル (中央値) は同じビンにあるため、それらの答えも 2 です。

これは、データ ポイント値ごとに 1 つのビンを選択したためです。これらがより一般的な範囲 (1 ~ 5、6 ~ 10 など) である場合、下位 20 パーセンタイルと 50 パーセンタイルは同じビンにある可能性がありますが、必ずしも同じ値になるとは限りません。ただし、値を決定するには、データセット全体ではなく、そのビンのコンテンツのみをさらに調査して正確な値を決定する必要があります。

SO2691928 の例

于 2013-08-20T03:21:52.710 に答える