ボックスプロットの線の終点が何を表しているかについての説明が見つかりません。
たとえば、ラインが終了する位置の上下にポイント値があります。
(ボックスの上下が 25 パーセンタイルと 75 パーセンタイルで、中心線が 50 パーセンタイルであることがわかります)。線の上と下に点があるので、それらは最大/最小値を表していないと思います。
箱ひげ図の最後の「ドット」は外れ値を表します。ポイントが外れ値であるかどうかを判断するためのさまざまなルールがありますが、R と ggplot が使用する方法は「1.5 ルール」です。データポイントが次の場合:
そのポイントは「外れ値」として分類されます。ひげは次のように定義されます。
上ヒゲ = min(max(x), Q_3 + 1.5 * IQR)
下のひげ = 最大 (最小 (x)、Q_1 – 1.5 * IQR)
ここで、IQR = Q_3 – Q_1、ボックスの長さ。したがって、上部のひげは最大 x 値と Q_3 + 1.5 IQR の小さい方に位置し、下部のひげは最小 x 値と Q_1 – 1.5 IQR の大きい方に位置します。
追加情報
例
次の例を考えてみましょう
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
これにより、次のプロットが得られます。
範囲を 1.7 から 1.5 に減らすと、ひげの長さが短くなります。ただし、range=0
これは特殊なケースです。「range=infinity」と同等です。
boxplot と同じように、ggplot は標準のデフォルトを使用していると思います。
参照: boxplot.stats