【上四分位数和下四分位数】究竟是什么?
在理解上四分位数(Upper Quartile)和下四分位数(Lower Quartile)之前,我们先回顾一下中位数(Median)。中位数是将一组数据从小到大排列后,位于最中间的那个数值。它把数据分成了两等份,即约50%的数据小于等于中位数,约50%的数据大于等于中位数。
而四分位数则更进一步,它将有序的数据分成了四个等份。就像切蛋糕一样,中位数切一刀(把数据分成两半),四分位数切三刀(把数据分成四份)。这三刀切出来的点就分别是:
- 下四分位数 (Q1):也称为第一四分位数,是将数据从小到大排列后,位于约25%位置的数值。也就是说,约有25%的数据小于等于Q1,约有75%的数据大于等于Q1。
- 中位数 (Q2):也称为第二四分位数,就是我们之前说的中位数,位于约50%位置的数值。
- 上四分位数 (Q3):也称为第三四分位数,是将数据从小到大排列后,位于约75%位置的数值。也就是说,约有75%的数据小于等于Q3,约有25%的数据大于等于Q3。
简单来说,Q1和Q3是分界点,它们与最小值、中位数、最大值一起,将数据集划分为四个部分,每部分大约包含25%的数据。
为什么需要使用上四分位数和下四分位数?
仅仅知道数据的平均值或中位数,有时无法全面了解数据的特征。特别是当数据分布不均匀或存在极端值(异常值)时。
上四分位数和下四分位数的主要作用在于:
- 衡量数据的分散程度(Spread):它们框定了数据的“中间部分”。Q1和Q3之间的范围包含了数据集中最典型的50%的数据。这个范围的大小(Q3 – Q1)被称为四分位距(Interquartile Range, IQR)。IQR是一个非常重要的衡量数据分散程度的指标,它不像全距(最大值-最小值)那样容易受到极端值的影响,因此更加稳健。
- 了解数据分布的形状:通过比较Q1、中位数(Q2)和Q3之间的距离,我们可以大致了解数据的分布是否对称。如果Q2更靠近Q1,而离Q3较远,可能表示数据分布偏向高值;如果Q2更靠近Q3,而离Q1较远,可能表示数据分布偏向低值。
- 识别潜在的异常值(Outliers):基于四分位数和四分位距,可以建立一个简单的规则来判断哪些数据点可能是异常值。一个常用的规则是:如果一个数据点小于 Q1 – 1.5 * IQR 或大于 Q3 + 1.5 * IQR,则它可能是异常值。
- 对不同数据集进行比较:通过比较不同数据集的Q1、Q3和IQR,我们可以更深入地理解它们在中心位置和分散程度上的差异,即使它们的平均值或中位数相似。
总而言之,Q1和Q3提供了比中位数更丰富的关于数据分布和离散程度的信息,尤其在数据存在极端值或需要稳健性分析时显得非常有用。
上四分位数和下四分位数在哪里得到应用?
由于它们在描述数据分散程度和识别异常值方面的优势,上四分位数和下四分位数在许多领域都有广泛应用:
- 统计学与数据分析:作为描述性统计的重要组成部分,用于快速概览数据集的特征,计算IQR,构建箱线图。
- 金融领域:分析股票价格波动范围、收入分布、投资回报率的分散性等。例如,分析一个行业内不同公司的薪资水平时,Q1、中位数、Q3可以清晰展示低薪、中等薪、高薪的大致范围。
- 质量控制:监控生产过程中产品的关键指标(如尺寸、重量)的变化范围。如果某个指标的Q1和Q3超出可接受的范围,可能表明生产过程不稳定。
- 教育评估:分析考试分数分布,了解学生整体表现的集中区域和分散程度,比较不同班级或学校的成绩分布。
- 医疗卫生:分析患者生理指标(如血压、血糖)的分布范围,研究某种疾病患者的关键指标的典型范围。
- 市场研究:分析消费者行为数据,如购物金额、停留时间等,了解大多数消费者的行为模式,识别高消费或低消费群体。
任何需要理解数据分布、关注中间部分数据特征、或需要稳健衡量分散程度的场景,四分位数都是非常有用的工具。
如何计算上四分位数和下四分位数?
计算上四分位数和下四分位数有几种略微不同的方法,但核心步骤是相似的。这里介绍一种常用且易于理解的方法(不包含中位数):
- 第一步:将数据从小到大排序。
这是最基础也是最重要的一步。所有计算都必须基于有序的数据。
- 第二步:找到中位数(Q2)。
如果数据点总数
n 是奇数,中位数是排序后位于(n+1)/2 位置上的数值。
如果数据点总数n 是偶数,中位数是排序后位于n/2 和n/2 + 1 位置上的两个数值的平均值。 - 第三步:划分数据为下半部分和上半部分。
将数据集根据中位数分为两半。重要的是如何处理中位数本身:
如果n 是奇数,中位数(Q2)本身不包含 在下半部分和上半部分中。
如果n 是偶数,中位数由两个数值的平均值计算得到,这两个数值都包含 在各自的半部分中(即前n/2个数据构成下半部分,后n/2个数据构成上半部分)。 - 第四步:计算下四分位数(Q1)。
Q1是下半部分数据的中位数。按照第二步的方法,对下半部分数据集重新计算中位数。
- 第五步:计算上四分位数(Q3)。
Q3是上半部分数据的中位数。按照第二步的方法,对上半部分数据集重新计算中位数。
计算示例:
假设有一组数据: 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30
总数 n = 11
- 排序: 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30 (数据本身已排序)
- 中位数 (Q2): n=11是奇数,中位数在 (11+1)/2 = 6 的位置。排序后第6个数值是 16。所以 Q2 = 16。
- 划分: n=11是奇数,中位数16不包含在半部分中。
下半部分: 5, 8, 10, 12, 15
上半部分: 18, 20, 22, 25, 30 - 计算 Q1: 下半部分有 5 个数据点。这是奇数个。下半部分的中位数在 (5+1)/2 = 3 的位置。下半部分排序后第3个数值是 10。所以 Q1 = 10。
- 计算 Q3: 上半部分有 5 个数据点。这是奇数个。上半部分的中位数在 (5+1)/2 = 3 的位置。上半部分排序后第3个数值是 22。所以 Q3 = 22。
因此,这组数据的下四分位数是 10,上四分位数是 22。这意味着约有25%的数据小于等于10,约有75%的数据小于等于22。中间50%的数据(Q1到Q3)范围是 10 到 22。四分位距 IQR = Q3 – Q1 = 22 – 10 = 12。
另一个示例(偶数个数据点): 2, 4, 6, 8, 10, 12, 14, 16
总数 n = 8
- 排序: 2, 4, 6, 8, 10, 12, 14, 16 (数据本身已排序)
- 中位数 (Q2): n=8是偶数。中位数是第 8/2=4 和第 8/2+1=5 位置数值的平均值。第4个是 8,第5个是 10。Q2 = (8+10)/2 = 9。
- 划分: n=8是偶数,中位数由第4和第5个数值的平均值计算,这两个数值包含在半部分中。
下半部分: 2, 4, 6, 8
上半部分: 10, 12, 14, 16 - 计算 Q1: 下半部分有 4 个数据点。这是偶数个。下半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。下半部分排序后第2个是 4,第3个是 6。Q1 = (4+6)/2 = 5。
- 计算 Q3: 上半部分有 4 个数据点。这是偶数个。上半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。上半部分排序后第2个是 12,第3个是 14。Q3 = (12+14)/2 = 13。
这组数据的下四分位数是 5,上四分位数是 13。IQR = 13 – 5 = 8。
需要注意的是,不同的统计软件或教科书在处理奇数个数据时,划分下半部分和上半部分是否包含中位数,或者在查找四分位数位置时使用的公式略有差异(例如使用
四分位数与数据分布的关系
正如之前提到的,下四分位数、中位数和上四分位数将数据大致分成四个25%的部分。这提供了一个直观的方式来理解数据的密集程度和偏向性。
- 从最小值到 Q1 包含约 25% 的数据。
- 从 Q1 到 中位数 (Q2) 包含约 25% 的数据。
- 从 中位数 (Q2) 到 Q3 包含约 25% 的数据。
- 从 Q3 到 最大值 包含约 25% 的数据。
Q1到Q3之间的范围(即四分位距IQR)集中了数据的“主体”,因为它涵盖了中间的50%。IQR越小,表示中间这50%的数据越集中;IQR越大,表示中间这50%的数据越分散。
通过比较 (Q2 – Q1) 和 (Q3 – Q2) 的大小,我们可以粗略判断数据分布的对称性:
如果 (Q2 – Q1) ≈ (Q3 – Q2),数据分布可能接近对称。
如果 (Q2 – Q1) < (Q3 - Q2),数据分布可能右偏(尾巴在高端)。
如果 (Q2 – Q1) > (Q3 – Q2),数据分布可能左偏(尾巴在低端)。
四分位数的图形化表示:箱线图
箱线图(Box Plot)是一种非常有效地可视化四分位数、中位数以及数据分散和异常值情况的图形工具。
一个标准的箱线图包含:
- 一个“箱子”(Box):这个箱子从下四分位数 (Q1) 开始,到上四分位数 (Q3) 结束。箱子的长度就是四分位距 (IQR)。
- 箱子内部的一条线:表示中位数 (Q2)。
- 从箱子延伸出来的“须”(Whiskers):通常延伸到在某个范围内的最大值和最小值(例如,Q3 + 1.5 * IQR 或 Q1 – 1.5 * IQR 范围内的最远数据点)。
- 箱线图外的点:表示根据规则判定的异常值。
通过箱线图,我们可以一目了然地看到数据的中心位置(中位数)、中间50%数据的分散程度(箱子的长度即IQR),以及数据整体的范围和是否存在异常值。
总结
上四分位数和下四分位数是描述数据集关键特征的两个重要分位数。它们与中位数一起,将数据分为四个部分,帮助我们理解数据的分布形状和集中趋势。特别是它们所定义的四分位距(IQR)提供了一个稳健的衡量数据分散程度的指标,不受极端值的影响。无论是在统计分析、商业决策还是科学研究中,理解并运用四分位数都能帮助我们更准确地把握数据的本质。