web-dev-qa-db-ja.com

ggplot2では、箱ひげ図の終わりは何を表していますか?

箱ひげ図の線の終点が何を表すのかについての説明が見つかりません。

たとえば、ここでは、線の終点の上下のポイント値を示します。 enter image description here

(ボックスの上部と下部が25パーセンタイルと75パーセンタイルで、中心線が50パーセンタイルであることを理解しています)。線の上下にポイントがあるため、それらは最大値/最小値を表していないと思います。

42
djq

箱ひげ図の最後の「ドット」は外れ値を表します。ポイントが異常値かどうかを判断するためのルールはいくつかありますが、Rとggplotが使用する方法は「1.5ルール」です。データポイントが次の場合:

  • q1未満-1.5 * IQR
  • q3 + 1.5 * IQRより大きい

次に、そのポイントは「外れ値」として分類されます。ひげは次のように定義されます。

上部のひげ= min(max(x)、Q_3 + 1.5 * IQR)

下のひげ= max(min(x)、Q_1 – 1.5 * IQR)

ここで、IQR = Q_3 – Q_1、ボックスの長さ。したがって、上部のひげはxの最大値とQ_3 + 1.5 IQRのsmallerにあり、下部のひげはlarger最小のx値とQ_1 – 1.5 IQRの。

追加情報

  • 代替の外れ値ルールについては wikipedia boxplot ページを参照してください。
  • 変位値を計算する方法は実際にはさまざまです。 nine異なるメソッドの説明については、 `?quantileを参照してください。

次の例を考えてみましょう

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

これにより、次のプロットが得られます。 enter image description here

範囲を1.7から1.5に減らすと、ひげの長さが短くなります。しかしながら、 range=0は特殊なケースです-「range = infinity」と同等です

63
csgillespie

Ggplotは、boxplotと同じように、標準のデフォルトを使用すると思います。

参照: boxplot.stats

14
Tyler

P1IMSAチュートリアル8-箱ひげ図を理解する ビデオは、(Tukey)箱ひげ図の視覚的な段階的な説明を提供します。

4分23秒で、ウィスカの終わりの意味と1.5 * IQRとの関係を説明します。

ビデオに示されているグラフは、RではなくD3.jsを使用してレンダリングされましたが、その説明は、ボックスプロットのR実装で説明されています。

2
Ken Lin