【上四分位数和下四分位数】究竟是什么?

在理解上四分位数(Upper Quartile)和下四分位数(Lower Quartile)之前,我们先回顾一下中位数(Median)。中位数是将一组数据从小到大排列后,位于最中间的那个数值。它把数据分成了两等份,即约50%的数据小于等于中位数,约50%的数据大于等于中位数。

而四分位数则更进一步,它将有序的数据分成了四个等份。就像切蛋糕一样,中位数切一刀(把数据分成两半),四分位数切三刀(把数据分成四份)。这三刀切出来的点就分别是:

  • 下四分位数 (Q1):也称为第一四分位数,是将数据从小到大排列后,位于约25%位置的数值。也就是说,约有25%的数据小于等于Q1,约有75%的数据大于等于Q1。
  • 中位数 (Q2):也称为第二四分位数,就是我们之前说的中位数,位于约50%位置的数值。
  • 上四分位数 (Q3):也称为第三四分位数,是将数据从小到大排列后,位于约75%位置的数值。也就是说,约有75%的数据小于等于Q3,约有25%的数据大于等于Q3。

简单来说,Q1和Q3是分界点,它们与最小值、中位数、最大值一起,将数据集划分为四个部分,每部分大约包含25%的数据。

为什么需要使用上四分位数和下四分位数?

仅仅知道数据的平均值或中位数,有时无法全面了解数据的特征。特别是当数据分布不均匀或存在极端值(异常值)时。

上四分位数和下四分位数的主要作用在于:

  1. 衡量数据的分散程度(Spread):它们框定了数据的“中间部分”。Q1和Q3之间的范围包含了数据集中最典型的50%的数据。这个范围的大小(Q3 – Q1)被称为四分位距(Interquartile Range, IQR)。IQR是一个非常重要的衡量数据分散程度的指标,它不像全距(最大值-最小值)那样容易受到极端值的影响,因此更加稳健。
  2. 了解数据分布的形状:通过比较Q1、中位数(Q2)和Q3之间的距离,我们可以大致了解数据的分布是否对称。如果Q2更靠近Q1,而离Q3较远,可能表示数据分布偏向高值;如果Q2更靠近Q3,而离Q1较远,可能表示数据分布偏向低值。
  3. 识别潜在的异常值(Outliers):基于四分位数和四分位距,可以建立一个简单的规则来判断哪些数据点可能是异常值。一个常用的规则是:如果一个数据点小于 Q1 – 1.5 * IQR 或大于 Q3 + 1.5 * IQR,则它可能是异常值。
  4. 对不同数据集进行比较:通过比较不同数据集的Q1、Q3和IQR,我们可以更深入地理解它们在中心位置和分散程度上的差异,即使它们的平均值或中位数相似。

总而言之,Q1和Q3提供了比中位数更丰富的关于数据分布和离散程度的信息,尤其在数据存在极端值或需要稳健性分析时显得非常有用。

上四分位数和下四分位数在哪里得到应用?

由于它们在描述数据分散程度和识别异常值方面的优势,上四分位数和下四分位数在许多领域都有广泛应用:

  • 统计学与数据分析:作为描述性统计的重要组成部分,用于快速概览数据集的特征,计算IQR,构建箱线图。
  • 金融领域:分析股票价格波动范围、收入分布、投资回报率的分散性等。例如,分析一个行业内不同公司的薪资水平时,Q1、中位数、Q3可以清晰展示低薪、中等薪、高薪的大致范围。
  • 质量控制:监控生产过程中产品的关键指标(如尺寸、重量)的变化范围。如果某个指标的Q1和Q3超出可接受的范围,可能表明生产过程不稳定。
  • 教育评估:分析考试分数分布,了解学生整体表现的集中区域和分散程度,比较不同班级或学校的成绩分布。
  • 医疗卫生:分析患者生理指标(如血压、血糖)的分布范围,研究某种疾病患者的关键指标的典型范围。
  • 市场研究:分析消费者行为数据,如购物金额、停留时间等,了解大多数消费者的行为模式,识别高消费或低消费群体。

任何需要理解数据分布、关注中间部分数据特征、或需要稳健衡量分散程度的场景,四分位数都是非常有用的工具。

如何计算上四分位数和下四分位数?

计算上四分位数和下四分位数有几种略微不同的方法,但核心步骤是相似的。这里介绍一种常用且易于理解的方法(不包含中位数):

  1. 第一步:将数据从小到大排序。

    这是最基础也是最重要的一步。所有计算都必须基于有序的数据。

  2. 第二步:找到中位数(Q2)。

    如果数据点总数 n 是奇数,中位数是排序后位于 (n+1)/2 位置上的数值。
    如果数据点总数 n 是偶数,中位数是排序后位于 n/2n/2 + 1 位置上的两个数值的平均值。

  3. 第三步:划分数据为下半部分和上半部分。

    将数据集根据中位数分为两半。重要的是如何处理中位数本身:
    如果 n 是奇数,中位数(Q2)本身不包含在下半部分和上半部分中。
    如果 n 是偶数,中位数由两个数值的平均值计算得到,这两个数值都包含在各自的半部分中(即前n/2个数据构成下半部分,后n/2个数据构成上半部分)。

  4. 第四步:计算下四分位数(Q1)。

    Q1是下半部分数据的中位数。按照第二步的方法,对下半部分数据集重新计算中位数。

  5. 第五步:计算上四分位数(Q3)。

    Q3是上半部分数据的中位数。按照第二步的方法,对上半部分数据集重新计算中位数。

计算示例:

假设有一组数据: 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30

总数 n = 11

  1. 排序: 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30 (数据本身已排序)
  2. 中位数 (Q2): n=11是奇数,中位数在 (11+1)/2 = 6 的位置。排序后第6个数值是 16。所以 Q2 = 16。
  3. 划分: n=11是奇数,中位数16不包含在半部分中。

    下半部分: 5, 8, 10, 12, 15

    上半部分: 18, 20, 22, 25, 30
  4. 计算 Q1: 下半部分有 5 个数据点。这是奇数个。下半部分的中位数在 (5+1)/2 = 3 的位置。下半部分排序后第3个数值是 10。所以 Q1 = 10。
  5. 计算 Q3: 上半部分有 5 个数据点。这是奇数个。上半部分的中位数在 (5+1)/2 = 3 的位置。上半部分排序后第3个数值是 22。所以 Q3 = 22。

因此,这组数据的下四分位数是 10,上四分位数是 22。这意味着约有25%的数据小于等于10,约有75%的数据小于等于22。中间50%的数据(Q1到Q3)范围是 10 到 22。四分位距 IQR = Q3 – Q1 = 22 – 10 = 12。


另一个示例(偶数个数据点): 2, 4, 6, 8, 10, 12, 14, 16

总数 n = 8

  1. 排序: 2, 4, 6, 8, 10, 12, 14, 16 (数据本身已排序)
  2. 中位数 (Q2): n=8是偶数。中位数是第 8/2=4 和第 8/2+1=5 位置数值的平均值。第4个是 8,第5个是 10。Q2 = (8+10)/2 = 9。
  3. 划分: n=8是偶数,中位数由第4和第5个数值的平均值计算,这两个数值包含在半部分中。

    下半部分: 2, 4, 6, 8

    上半部分: 10, 12, 14, 16
  4. 计算 Q1: 下半部分有 4 个数据点。这是偶数个。下半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。下半部分排序后第2个是 4,第3个是 6。Q1 = (4+6)/2 = 5。
  5. 计算 Q3: 上半部分有 4 个数据点。这是偶数个。上半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。上半部分排序后第2个是 12,第3个是 14。Q3 = (12+14)/2 = 13。

这组数据的下四分位数是 5,上四分位数是 13。IQR = 13 – 5 = 8。

需要注意的是,不同的统计软件或教科书在处理奇数个数据时,划分下半部分和上半部分是否包含中位数,或者在查找四分位数位置时使用的公式略有差异(例如使用 (n+1)/4n/4 等不同的位置指数计算方法),这可能导致计算结果有微小不同。但核心概念和它们代表的意义是相同的。上面示例中使用的方法是比较常见的一种。

四分位数与数据分布的关系

正如之前提到的,下四分位数、中位数和上四分位数将数据大致分成四个25%的部分。这提供了一个直观的方式来理解数据的密集程度和偏向性。

  • 从最小值到 Q1 包含约 25% 的数据。
  • 从 Q1 到 中位数 (Q2) 包含约 25% 的数据。
  • 从 中位数 (Q2) 到 Q3 包含约 25% 的数据。
  • 从 Q3 到 最大值 包含约 25% 的数据。

Q1到Q3之间的范围(即四分位距IQR)集中了数据的“主体”,因为它涵盖了中间的50%。IQR越小,表示中间这50%的数据越集中;IQR越大,表示中间这50%的数据越分散。

通过比较 (Q2 – Q1) 和 (Q3 – Q2) 的大小,我们可以粗略判断数据分布的对称性:

如果 (Q2 – Q1) ≈ (Q3 – Q2),数据分布可能接近对称。
如果 (Q2 – Q1) < (Q3 - Q2),数据分布可能右偏(尾巴在高端)。
如果 (Q2 – Q1) > (Q3 – Q2),数据分布可能左偏(尾巴在低端)。

四分位数的图形化表示:箱线图

箱线图(Box Plot)是一种非常有效地可视化四分位数、中位数以及数据分散和异常值情况的图形工具。

一个标准的箱线图包含:

  • 一个“箱子”(Box):这个箱子从下四分位数 (Q1) 开始,到上四分位数 (Q3) 结束。箱子的长度就是四分位距 (IQR)。
  • 箱子内部的一条线:表示中位数 (Q2)。
  • 从箱子延伸出来的“须”(Whiskers):通常延伸到在某个范围内的最大值和最小值(例如,Q3 + 1.5 * IQR 或 Q1 – 1.5 * IQR 范围内的最远数据点)。
  • 箱线图外的点:表示根据规则判定的异常值。

通过箱线图,我们可以一目了然地看到数据的中心位置(中位数)、中间50%数据的分散程度(箱子的长度即IQR),以及数据整体的范围和是否存在异常值。

总结

上四分位数和下四分位数是描述数据集关键特征的两个重要分位数。它们与中位数一起,将数据分为四个部分,帮助我们理解数据的分布形状和集中趋势。特别是它们所定义的四分位距(IQR)提供了一个稳健的衡量数据分散程度的指标,不受极端值的影响。无论是在统计分析、商业决策还是科学研究中,理解并运用四分位数都能帮助我们更准确地把握数据的本质。


上四分位数和下四分位数