44

ボックスプロットの線の終点が何を表しているかについての説明が見つかりません。

たとえば、ラインが終了する位置の上下にポイント値があります。 ここに画像の説明を入力

(ボックスの上下が 25 パーセンタイルと 75 パーセンタイルで、中心線が 50 パーセンタイルであることがわかります)。線の上と下に点があるので、それらは最大/最小値を表していないと思います。

4

4 に答える 4

73

箱ひげ図の最後の「ドット」は外れ値を表します。ポイントが外れ値であるかどうかを判断するためのさまざまなルールがありますが、R と ggplot が使用する方法は「1.5 ルール」です。データポイントが次の場合:

  • Q1未満 - 1.5*IQR
  • Q3 + 1.5*IQR より大きい

そのポイントは「外れ値」として分類されます。ひげは次のように定義されます。

上ヒゲ = min(max(x), Q_3 + 1.5 * IQR)

下のひげ = 最大 (最小 (x)、Q_1 – 1.5 * IQR)

ここで、IQR = Q_3 – Q_1、ボックスの長さ。したがって、上部のひげは最大 x 値と Q_3 + 1.5 IQR の小さい方に位置し、下部のひげは最小 x 値と Q_1 – 1.5 IQR の大きい方に位置ます

追加情報

  • 別の外れ値ルールについては、ウィキペディアの箱ひげ図のページを参照してください。
  • 分位点を計算するには、実際にはさまざまな方法があります。9 つの異なるメソッドの説明については、`?quantile を参照してください。

次の例を考えてみましょう

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

これにより、次のプロットが得られます。 ここに画像の説明を入力

範囲を 1.7 から 1.5 に減らすと、ひげの長さが短くなります。ただし、range=0これは特殊なケースです。「range=infinity」と同等です。

于 2011-02-09T15:38:42.667 に答える
15

boxplot と同じように、ggplot は標準のデフォルトを使用していると思います。

参照: boxplot.stats

于 2011-02-09T15:41:43.083 に答える