web-dev-qa-db-ja.com

1番目と3番目の四分位数の計算方法

私はDataFrameを持っています:

    time_diff   avg_trips
0   0.450000    1.0
1   0.483333    1.0
2   0.500000    1.0
3   0.516667    1.0
4   0.533333    2.0

time_diffの第1四分位数、第3四分位数、および中央値を取得します。中央値を取得するには、np.median(df["time_diff"].values)を使用します。

四分位数を計算するにはどうすればよいですか?

19
Dinosaurius

pandasを使用して:

df.time_diff.quantile([0.25,0.5,0.75])


Out[793]: 
0.25    0.483333
0.50    0.500000
0.75    0.516667
Name: time_diff, dtype: float64
24
WeNYoBen

np.percentile を使用して、四分位数(中央値を含む)を計算できます。

>>> np.percentile(df.time_diff, 25)  # Q1
0.48333300000000001

>>> np.percentile(df.time_diff, 50)  # median
0.5

>>> np.percentile(df.time_diff, 75)  # Q3
0.51666699999999999

または一度に:

>>> np.percentile(df.time_diff, [25, 50, 75])
array([ 0.483333,  0.5     ,  0.516667])
27
MSeifert

偶然にも、この情報はdescribeメソッドでキャプチャされます:

df.time_diff.describe()

count    5.000000
mean     0.496667
std      0.032059
min      0.450000
25%      0.483333
50%      0.500000
75%      0.516667
max      0.533333
Name: time_diff, dtype: float64
10
piRSquared

np.percentileDOES NOTQ1、中央値、およびQ3の値を計算します。以下のソートされたリストを検討してください。

samples = [1, 1, 8, 12, 13, 13, 14, 16, 19, 22, 27, 28, 31]

np.percentile(samples, [25, 50, 75])を実行すると、リストから実際の値が返されます。

Out[1]: array([12., 14., 22.])

ただし、四分位数はQ1=10.0, Median=14, Q3=24.5です(この link を使用して四分位数と中央値をオンラインで検索することもできます)。以下のコードを使用して、並べ替えられたリストの四分位数と中央値を計算できます(このアプローチを並べ替えるには、nがアイテムの数であるO(nlogn)計算が必要です)。さらに、四分位数と中央値の検索は、 中央値の中央値 選択アルゴリズム( 順序統計量 )を使用してO(n)計算で実行できます。

samples = sorted([28, 12, 8, 27, 16, 31, 14, 13, 19, 1, 1, 22, 13])

def find_median(sorted_list):
    indices = []

    list_size = len(sorted_list)
    median = 0

    if list_size % 2 == 0:
        indices.append(int(list_size / 2) - 1)  # -1 because index starts from 0
        indices.append(int(list_size / 2))

        median = (sorted_list[indices[0]] + sorted_list[indices[1]]) / 2
        pass
    else:
        indices.append(int(list_size / 2))

        median = sorted_list[indices[0]]
        pass

    return median, indices
    pass

median, median_indices = find_median(samples)
Q1, Q1_indices = find_median(samples[:median_indices[0]])
Q2, Q2_indices = find_median(samples[median_indices[-1] + 1:])

quartiles = [Q1, median, Q2]

print("(Q1, median, Q3): {}".format(quartiles))
6
Cyrus

np.percentileを使用します。

q75, q25 = np.percentile(DataFrame, [75,25])
iqr = q75 - q25

NumpyでIQRを見つける方法 からの回答

6
Stian Ulriksen

Cyrusの発言に基づいて、または少し修正します。

[np.percentile][1]DOES VERY MUCH Q1、中央値、およびQ3の値を計算します。以下のソートされたリストを検討してください。

s1=[18,45,66,70,76,83,88,90,90,95,95,98]

np.percentile(s1, [25, 50, 75])を実行すると、リストから実際の値が返されます。

[69.   85.5  91.25]

ただし、四分位数はQ1 = 68.0、Median = 85.5、Q3 = 92.5であり、これは正しいということです

ここで不足しているのは、np.percentileおよび関連する関数の補間パラメーターです。デフォルトでは、この引数の値はlinearです。このオプションのパラメーターは、目的の分位点が2つのデータポイントi <jの間にある場合に使用する補間方法を指定します。
linear:i +(j-i)*fraction。fractionは、iとjで囲まれたインデックスの小数部分です。
下:i。
higher:j。
nearest:iまたはj、どちらか近い方。
中間点:(i + j)/ 2。

したがって、np.percentile(s1, [25, 50, 75], interpolation='midpoint')を実行すると、リストの実際の結果が返されます。

[68.  85.5 92.5]
1

学習統計と一緒にオブジェクト指向プログラミングを学習する私の努力の中で、私はこれを作りました。

samplesCourse = [9, 10, 10, 11, 13, 15, 16, 19, 19, 21, 23, 28, 30, 33, 34, 36, 44, 45, 47, 60]

class sampleSet:
    def __init__(self, sampleList):
        self.sampleList = sampleList
        self.interList = list(sampleList) # interList is sampleList alias; alias used to maintain integrity of original sampleList

    def find_median(self):
        self.median = 0

        if len(self.sampleList) % 2 == 0:
            # find median for even-numbered sample list length
            self.medL = self.interList[int(len(self.interList)/2)-1]
            self.medU = self.interList[int(len(self.interList)/2)]
            self.median = (self.medL + self.medU)/2

        else:
            # find median for odd-numbered sample list length
            self.median = self.interList[int((len(self.interList)-1)/2)]
        return self.median

    def find_1stQuartile(self, median):
        self.lower50List = []
        self.Q1 = 0

        # break out lower 50 percentile from sampleList
        if len(self.interList) % 2 == 0:
            self.lower50List = self.interList[:int(len(self.interList)/2)]
        else:
            # drop median to make list ready to divide into 50 percentiles
            self.interList.pop(interList.index(self.median))
            self.lower50List = self.interList[:int(len(self.interList)/2)]

        # find 1st quartile (median of lower 50 percentiles)
        if len(self.lower50List) % 2 == 0:
            self.Q1L = self.lower50List[int(len(self.lower50List)/2)-1]
            self.Q1U = self.lower50List[int(len(self.lower50List)/2)]
            self.Q1 = (self.Q1L + self.Q1U)/2

        else:
            self.Q1 = self.lower50List[int((len(self.lower50List)-1)/2)]

        return self.Q1

    def find_3rdQuartile(self, median):
        self.upper50List = []
        self.Q3 = 0

        # break out upper 50 percentile from sampleList
        if len(self.sampleList) % 2 == 0:
            self.upper50List = self.interList[int(len(self.interList)/2):]
        else:
            self.interList.pop(interList.index(self.median))
            self.upper50List = self.interList[int(len(self.interList)/2):]

        # find 3rd quartile (median of upper 50 percentiles)
        if len(self.upper50List) % 2 == 0:
            self.Q3L = self.upper50List[int(len(self.upper50List)/2)-1]
            self.Q3U = self.upper50List[int(len(self.upper50List)/2)]
            self.Q3 = (self.Q3L + self.Q3U)/2

        else:
            self.Q3 = self.upper50List[int((len(self.upper50List)-1)/2)]

        return self.Q3

    def find_InterQuartileRange(self, Q1, Q3):
        self.IQR = self.Q3 - self.Q1
        return self.IQR

    def find_UpperFence(self, Q3, IQR):
        self.fence = self.Q3 + 1.5 * self.IQR
        return self.fence

samples = sampleSet(samplesCourse)
median = samples.find_median()
firstQ = samples.find_1stQuartile(median)
thirdQ = samples.find_3rdQuartile(median)
iqr = samples.find_InterQuartileRange(firstQ, thirdQ)
fence = samples.find_UpperFence(thirdQ, iqr)

print("Median is: ", median)
print("1st quartile is: ", firstQ)
print("3rd quartile is: ", thirdQ)
print("IQR is: ", iqr)
print("Upper fence is: ", fence)
1
Ian