75

私は一日中 R 分位点関数に戸惑いました。

私は分位数がどのように機能するかについて直感的な概念を持っており、統計には MS があります。

ドキュメントから:

Q[i](p) = (1 - ガンマ) x[j] + ガンマ x[j+1]、

私はこれまでのところそれと一緒です。タイプi分位数の場合、これは x[j] と x [j+1] の間の補間であり、謎の定数ガンマに基づいています

ここで、1 <= i <= 9、(jm)/n <= p < (j-m+1)/ n、x[j] は j 次統計量、n はサンプル サイズ、m は定数です。サンプルの分位タイプによって。ここで、ガンマは g = np+mj の小数部分に依存します。

では、どのように j を計算するのでしょうか? ん?

連続サンプル分位数タイプ (4 ~ 9) の場合、サンプル分位数は、k 次統計量と p(k) の間の線形補間によって取得できます。

p(k) = (k - alpha) / (n - alpha - beta + 1)、ここで α と β は型によって決まる定数です。さらに、m = アルファ + p(1 - アルファ - ベータ)、ガンマ = g です。

今、私は本当に迷っています。以前は定数だった p は、明らかに関数になっています。

したがって、タイプ 7 分位数の場合、デフォルトは...

タイプ 7

p(k) = (k - 1) / (n - 1)。この場合、p(k) = モード [F(x[k])] です。こちらはSさんが使用。

誰でも私を助けたいですか?特に、 p が関数と定数であるという表記法、一体mとは何か、そして特定のpに対して j を計算することに混乱しています。

ここでの回答に基づいて、ここで何が起こっているかをよりよく説明する改訂されたドキュメントを提出できることを願っています.

quantile.R ソース コード またはタイプ: quantile.default

4

3 に答える 3

62

あなたは当然のことながら混乱しています。あのドキュメンテーションはひどい。その元になった論文に戻らなければなりませんでした (Hyndman, RJ; Fan, Y. (1996 年 11 月)。"Sample Quantiles in Statistical Packages". American Statistician 50 (4): 361–365. doi:10.2307/2684934 ) 。理解を得るために。最初の問題から始めましょう。

ここで、1 <= i <= 9、(jm)/n <= p < (j-m+1)/ n、x[j] は j 次統計量、n はサンプル サイズ、m は定数です。サンプルの分位タイプによって。ここで、ガンマは g = np+mj の小数部分に依存します。

最初の部分は論文からそのまま出てきますが、ドキュメンテーションの作成者が省略したのはj = int(pn+m). これは、(ソートされた) 観測結果の一部にQ[i](p)最も近い 2 つの順序統計のみに依存することを意味します。p(私のようにこの用語に慣れていない人にとっては、一連の観測の「順序統計」はソートされたシリーズです。)

また、最後の文は間違っています。それは読むべきです

ここで、ガンマは np+m の小数部分に依存します。g = np+mj

それはm簡単です。 m9 つのアルゴリズムのどれが選択されたかによって異なります。Q[i]分位関数と同じように、m考慮する必要がありますm[i]。アルゴリズム 1 と 2 の場合mは 0、3 の場合mは -1/2、その他の場合は次の部分です。

連続サンプル分位数タイプ (4 ~ 9) の場合、サンプル分位数は、k 次統計量と p(k) の間の線形補間によって取得できます。

p(k) = (k - alpha) / (n - alpha - beta + 1)、ここで α と β は型によって決まる定数です。さらに、m = アルファ + p(1 - アルファ - ベータ)、ガンマ = g です。

これは本当に紛らわしいです。ドキュメントが呼び出すものは、以前 p(k)のものと同じではありません。は作図位置です。論文では、著者はそれを と書いていますが、これは役に立ちます。特に の表現では、がオリジナルで、 が. 概念的には、アルゴリズム 4 ~ 9 では、点 ( 、) が補間されて解 ( 、) が得られます。各アルゴリズムは、 のアルゴリズムのみが異なります。pp(k)pkmppm = alpha + p * (1 - alpha - beta)pkx[k]pQ[i](p)pk

最後のビットについては、R は S が使用するものを示しているだけです。

元の論文では、6 つの「標本分位数」関数の望ましい特性のリストが示され、すべてを 1 で満たす #8 の優先順位が示されています。#5 はそれらすべてを満たしていますが、他の理由で気に入っていません (原則から導き出されるよりも現象論的)。#2は、私のような非統計オタクが分位数を考慮するものであり、ウィキペディアで説明されているものです.

ところで、dreeves answerへの回答として、Mathematica は大幅に異なる処理を行います。マッピングは理解できたと思います。Mathematica の方が理解しやすいのですが、(a) 意味のないパラメータで自分を撃つ方が簡単で、(b) R のアルゴリズム #2 を実行できません。(これはMathworld の Quantile ページで、Mathematica は #2 を実行できないと述べていますが、他のすべてのアルゴリズムを 4 つのパラメーターに関してより単純に一般化しています。)

于 2009-09-22T23:58:43.997 に答える
6

ベクトルを与え、既知の CDF を持たない場合、分位点を計算するさまざまな方法があります。

観測値が正確に分位点に当てはまらない場合にどうするかという問題を考えてみてください。

「タイプ」は、それを行う方法を決定しているだけです。したがって、メソッドは「k次統計とp(k)の間の線形補間を使用する」と言います。

では、p(k) とは何ですか? ある人は、「まあ、私は k/n を使うのが好きです」と言います。別の人は、「(k-1)/(n-1) を使用するのが好きです」などと言っています。これらの方法にはそれぞれ、1 つまたは別の問題により適したさまざまなプロパティがあります。

\alpha と \beta は、関数 p をパラメータ化する方法にすぎません。1 と 1 の場合もあれば、3/8 と -1/4 の場合もあります。p がドキュメンテーションで定数になることはないと思います。それらは常に依存関係を明示的に示すとは限りません。

1:5 や 1:6 などのベクトルを配置すると、さまざまなタイプで何が起こるかを確認してください。

(観測が分位点に正確に収まる場合でも、特定のタイプでは引き続き線形補間が使用されることに注意してください)。

于 2008-09-18T18:49:09.870 に答える