1

X未知の分布から引き出された、たとえば の実数値の配列を並べ替えました。このデータの箱ひげ図を描きたいと思います。

min最も単純なケースでは、Q1median、 、 、 の5 つの値を知る必要がQ3ありmaxます。

自明に、、、min = X[0]そしてmax = X[length(X)-1]おそらくmedian = X[ceil(length(X)/2)]. しかし、下位四分位数Q1Q3.

MATLAB を使用してプロットX = [1,2,4]すると、次の結果が得られます。

ここに画像の説明を入力

Q1 = 1.25値とを取得する魔法があるように思えますQ3 = 3.5が、魔法が何であるかはわかりません。誰もこれを経験していますか?

4

2 に答える 2

1

箱ひげ図の元の定義 (John Tukey を調べてください) に行く場合は、中点に中央値を使用します (つまり、1、2、4 のデータセットの 2)。エンドポイントは最小値と最大値です。

ボックスの上部と下部は、四分位数によって正確に定義されるわけではなく、「ヒンジ」と呼ばれます。ヒンジは、データの上半分と下半分の中央値です。観測値の数が奇数の場合、セット全体の中央値が両方のヒンジの決定に使用されます。下のヒンジは (1,2) の中央値、つまり 1.5 です。上部のヒンジは (2,4) または 3 の中央値です。

箱ひげ図の四分位数には、実際には数十の定義があります (ウィキペディア: 「四分位値の選択について、普遍的な合意はありません」)。MatLab のボックス プロットを合理化したい場合は、そのドキュメントを確認する必要があります。それ以外の場合は、結果に一致する方法を見つけるために頭脳をグーグルで検索することができます.

Minitab は、データセットのヒンジに 1 と 4 を与えます。Excel の PERCENTILE 関数は 1.5 と 3 を返しますが、これは偶然にも、少なくともこの場合は Tukey のアルゴリズムと一致します。

于 2012-05-19T15:54:25.983 に答える
1

中央値は、データを 2 つの半分に分割します。前半の中央値=Q1、後半の中央値=Q3。

詳細: http://www.purplemath.com/modules/boxwhisk.htm


MatLab ボックスプロットに関する注意: Q1 と Q3 は、MatLab では別の方法で計算される可能性があります。より多くのテスト データで試してみます。私の方法では、Q1 は 1、Q3 は 4 になるはずです。


編集:

MatLab が行う可能な計算は、中央値と前半の最初の数値の差であり、その 4 分の 1 を取ります。それを最初の数字に追加して、Q1 を取得します。同じことが (大まかに) Q3 にも当てはまります。中央値と最大数の差を取り、最大数からその 4 分の 1 を引きます。それがQ3です。

于 2012-05-16T22:39:46.063 に答える