上四分位数和下四分位数是什么？为什么用？哪里用？怎么算？

【上四分位数和下四分位数】究竟是什么？

在理解上四分位数（Upper Quartile）和下四分位数（Lower Quartile）之前，我们先回顾一下中位数（Median）。中位数是将一组数据从小到大排列后，位于最中间的那个数值。它把数据分成了两等份，即约50%的数据小于等于中位数，约50%的数据大于等于中位数。

而四分位数则更进一步，它将有序的数据分成了四个等份。就像切蛋糕一样，中位数切一刀（把数据分成两半），四分位数切三刀（把数据分成四份）。这三刀切出来的点就分别是：

下四分位数 (Q1)：也称为第一四分位数，是将数据从小到大排列后，位于约25%位置的数值。也就是说，约有25%的数据小于等于Q1，约有75%的数据大于等于Q1。
中位数 (Q2)：也称为第二四分位数，就是我们之前说的中位数，位于约50%位置的数值。
上四分位数 (Q3)：也称为第三四分位数，是将数据从小到大排列后，位于约75%位置的数值。也就是说，约有75%的数据小于等于Q3，约有25%的数据大于等于Q3。

简单来说，Q1和Q3是分界点，它们与最小值、中位数、最大值一起，将数据集划分为四个部分，每部分大约包含25%的数据。

为什么需要使用上四分位数和下四分位数？

仅仅知道数据的平均值或中位数，有时无法全面了解数据的特征。特别是当数据分布不均匀或存在极端值（异常值）时。

上四分位数和下四分位数的主要作用在于：

衡量数据的分散程度（Spread）：它们框定了数据的“中间部分”。Q1和Q3之间的范围包含了数据集中最典型的50%的数据。这个范围的大小（Q3 – Q1）被称为四分位距（Interquartile Range, IQR）。IQR是一个非常重要的衡量数据分散程度的指标，它不像全距（最大值-最小值）那样容易受到极端值的影响，因此更加稳健。
了解数据分布的形状：通过比较Q1、中位数（Q2）和Q3之间的距离，我们可以大致了解数据的分布是否对称。如果Q2更靠近Q1，而离Q3较远，可能表示数据分布偏向高值；如果Q2更靠近Q3，而离Q1较远，可能表示数据分布偏向低值。
识别潜在的异常值（Outliers）：基于四分位数和四分位距，可以建立一个简单的规则来判断哪些数据点可能是异常值。一个常用的规则是：如果一个数据点小于 Q1 – 1.5 * IQR 或大于 Q3 + 1.5 * IQR，则它可能是异常值。
对不同数据集进行比较：通过比较不同数据集的Q1、Q3和IQR，我们可以更深入地理解它们在中心位置和分散程度上的差异，即使它们的平均值或中位数相似。

总而言之，Q1和Q3提供了比中位数更丰富的关于数据分布和离散程度的信息，尤其在数据存在极端值或需要稳健性分析时显得非常有用。

上四分位数和下四分位数在哪里得到应用？

由于它们在描述数据分散程度和识别异常值方面的优势，上四分位数和下四分位数在许多领域都有广泛应用：

统计学与数据分析：作为描述性统计的重要组成部分，用于快速概览数据集的特征，计算IQR，构建箱线图。
金融领域：分析股票价格波动范围、收入分布、投资回报率的分散性等。例如，分析一个行业内不同公司的薪资水平时，Q1、中位数、Q3可以清晰展示低薪、中等薪、高薪的大致范围。
质量控制：监控生产过程中产品的关键指标（如尺寸、重量）的变化范围。如果某个指标的Q1和Q3超出可接受的范围，可能表明生产过程不稳定。
教育评估：分析考试分数分布，了解学生整体表现的集中区域和分散程度，比较不同班级或学校的成绩分布。
医疗卫生：分析患者生理指标（如血压、血糖）的分布范围，研究某种疾病患者的关键指标的典型范围。
市场研究：分析消费者行为数据，如购物金额、停留时间等，了解大多数消费者的行为模式，识别高消费或低消费群体。

任何需要理解数据分布、关注中间部分数据特征、或需要稳健衡量分散程度的场景，四分位数都是非常有用的工具。

如何计算上四分位数和下四分位数？

计算上四分位数和下四分位数有几种略微不同的方法，但核心步骤是相似的。这里介绍一种常用且易于理解的方法（不包含中位数）：

第一步：将数据从小到大排序。
这是最基础也是最重要的一步。所有计算都必须基于有序的数据。
第二步：找到中位数（Q2）。
如果数据点总数 n 是奇数，中位数是排序后位于 (n+1)/2 位置上的数值。
如果数据点总数 n 是偶数，中位数是排序后位于 n/2 和 n/2 + 1 位置上的两个数值的平均值。
第三步：划分数据为下半部分和上半部分。
将数据集根据中位数分为两半。重要的是如何处理中位数本身：
如果 n 是奇数，中位数（Q2）本身不包含在下半部分和上半部分中。
如果 n 是偶数，中位数由两个数值的平均值计算得到，这两个数值都包含在各自的半部分中（即前n/2个数据构成下半部分，后n/2个数据构成上半部分）。
第四步：计算下四分位数（Q1）。
Q1是下半部分数据的中位数。按照第二步的方法，对下半部分数据集重新计算中位数。
第五步：计算上四分位数（Q3）。
Q3是上半部分数据的中位数。按照第二步的方法，对上半部分数据集重新计算中位数。

计算示例：

假设有一组数据： 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30

总数 n = 11

排序： 5, 8, 10, 12, 15, 16, 18, 20, 22, 25, 30 (数据本身已排序)
中位数 (Q2)： n=11是奇数，中位数在 (11+1)/2 = 6 的位置。排序后第6个数值是 16。所以 Q2 = 16。
划分： n=11是奇数，中位数16不包含在半部分中。

下半部分： 5, 8, 10, 12, 15

上半部分： 18, 20, 22, 25, 30
计算 Q1： 下半部分有 5 个数据点。这是奇数个。下半部分的中位数在 (5+1)/2 = 3 的位置。下半部分排序后第3个数值是 10。所以 Q1 = 10。
计算 Q3： 上半部分有 5 个数据点。这是奇数个。上半部分的中位数在 (5+1)/2 = 3 的位置。上半部分排序后第3个数值是 22。所以 Q3 = 22。

因此，这组数据的下四分位数是 10，上四分位数是 22。这意味着约有25%的数据小于等于10，约有75%的数据小于等于22。中间50%的数据（Q1到Q3）范围是 10 到 22。四分位距 IQR = Q3 – Q1 = 22 – 10 = 12。

另一个示例（偶数个数据点）： 2, 4, 6, 8, 10, 12, 14, 16

总数 n = 8

排序： 2, 4, 6, 8, 10, 12, 14, 16 (数据本身已排序)
中位数 (Q2)： n=8是偶数。中位数是第 8/2=4 和第 8/2+1=5 位置数值的平均值。第4个是 8，第5个是 10。Q2 = (8+10)/2 = 9。
划分： n=8是偶数，中位数由第4和第5个数值的平均值计算，这两个数值包含在半部分中。

下半部分： 2, 4, 6, 8

上半部分： 10, 12, 14, 16
计算 Q1： 下半部分有 4 个数据点。这是偶数个。下半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。下半部分排序后第2个是 4，第3个是 6。Q1 = (4+6)/2 = 5。
计算 Q3： 上半部分有 4 个数据点。这是偶数个。上半部分的中位数是第 4/2=2 和第 4/2+1=3 位置数值的平均值。上半部分排序后第2个是 12，第3个是 14。Q3 = (12+14)/2 = 13。

这组数据的下四分位数是 5，上四分位数是 13。IQR = 13 – 5 = 8。

需要注意的是，不同的统计软件或教科书在处理奇数个数据时，划分下半部分和上半部分是否包含中位数，或者在查找四分位数位置时使用的公式略有差异（例如使用 (n+1)/4 或 n/4 等不同的位置指数计算方法），这可能导致计算结果有微小不同。但核心概念和它们代表的意义是相同的。上面示例中使用的方法是比较常见的一种。

四分位数与数据分布的关系

正如之前提到的，下四分位数、中位数和上四分位数将数据大致分成四个25%的部分。这提供了一个直观的方式来理解数据的密集程度和偏向性。

从最小值到 Q1 包含约 25% 的数据。
从 Q1 到中位数 (Q2) 包含约 25% 的数据。
从中位数 (Q2) 到 Q3 包含约 25% 的数据。
从 Q3 到最大值包含约 25% 的数据。

Q1到Q3之间的范围（即四分位距IQR）集中了数据的“主体”，因为它涵盖了中间的50%。IQR越小，表示中间这50%的数据越集中；IQR越大，表示中间这50%的数据越分散。

通过比较 (Q2 – Q1) 和 (Q3 – Q2) 的大小，我们可以粗略判断数据分布的对称性：

如果 (Q2 – Q1) ≈ (Q3 – Q2)，数据分布可能接近对称。
如果 (Q2 – Q1) < (Q3 - Q2)，数据分布可能右偏（尾巴在高端）。
如果 (Q2 – Q1) > (Q3 – Q2)，数据分布可能左偏（尾巴在低端）。

四分位数的图形化表示：箱线图

箱线图（Box Plot）是一种非常有效地可视化四分位数、中位数以及数据分散和异常值情况的图形工具。

一个标准的箱线图包含：

一个“箱子”（Box）：这个箱子从下四分位数 (Q1) 开始，到上四分位数 (Q3) 结束。箱子的长度就是四分位距 (IQR)。
箱子内部的一条线：表示中位数 (Q2)。
从箱子延伸出来的“须”（Whiskers）：通常延伸到在某个范围内的最大值和最小值（例如，Q3 + 1.5 * IQR 或 Q1 – 1.5 * IQR 范围内的最远数据点）。
箱线图外的点：表示根据规则判定的异常值。

通过箱线图，我们可以一目了然地看到数据的中心位置（中位数）、中间50%数据的分散程度（箱子的长度即IQR），以及数据整体的范围和是否存在异常值。

总结

上四分位数和下四分位数是描述数据集关键特征的两个重要分位数。它们与中位数一起，将数据分为四个部分，帮助我们理解数据的分布形状和集中趋势。特别是它们所定义的四分位距（IQR）提供了一个稳健的衡量数据分散程度的指标，不受极端值的影响。无论是在统计分析、商业决策还是科学研究中，理解并运用四分位数都能帮助我们更准确地把握数据的本质。

上四分位数和下四分位数