箱ひげ図の線の終点が何を表すのかについての説明が見つかりません。
たとえば、ここでは、線の終点の上下のポイント値を示します。
(ボックスの上部と下部が25パーセンタイルと75パーセンタイルで、中心線が50パーセンタイルであることを理解しています)。線の上下にポイントがあるため、それらは最大値/最小値を表していないと思います。
箱ひげ図の最後の「ドット」は外れ値を表します。ポイントが異常値かどうかを判断するためのルールはいくつかありますが、Rとggplotが使用する方法は「1.5ルール」です。データポイントが次の場合:
次に、そのポイントは「外れ値」として分類されます。ひげは次のように定義されます。
上部のひげ= min(max(x)、Q_3 + 1.5 * IQR)
下のひげ= max(min(x)、Q_1 – 1.5 * IQR)
ここで、IQR = Q_3 – Q_1、ボックスの長さ。したがって、上部のひげはxの最大値とQ_3 + 1.5 IQRのsmallerにあり、下部のひげはlarger最小のx値とQ_1 – 1.5 IQRの。
追加情報
例
次の例を考えてみましょう
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
これにより、次のプロットが得られます。
範囲を1.7から1.5に減らすと、ひげの長さが短くなります。しかしながら、 range=0
は特殊なケースです-「range = infinity」と同等です
Ggplotは、boxplotと同じように、標準のデフォルトを使用すると思います。
参照: boxplot.stats
P1IMSAチュートリアル8-箱ひげ図を理解する ビデオは、(Tukey)箱ひげ図の視覚的な段階的な説明を提供します。
4分23秒で、ウィスカの終わりの意味と1.5 * IQRとの関係を説明します。
ビデオに示されているグラフは、RではなくD3.jsを使用してレンダリングされましたが、その説明は、ボックスプロットのR実装で説明されています。