中位数和平均数是什么?
在数据分析和统计学中,我们经常需要用一个单一的数值来代表一组数据的“中心”位置。中位数和平均数(通常指算术平均数)是两种最常用的中心趋势度量方法,但它们代表“中心”的方式截然不同。理解它们的定义和计算方式是区分两者的基础。
什么是平均数(Mean)?
平均数,也称为算术平均数,是一组数据中所有数值的总和除以数值的个数。它是最常见的平均形式,反映了数据集合的“平衡点”。
计算平均数非常直观:
- 将所有数值加起来。
- 将总和除以数值的总个数。
计算公式:
平均数 = (所有数值的总和) / (数值的个数)
示例:
数据集合: 10, 20, 30, 40, 50
总和: 10 + 20 + 30 + 40 + 50 = 150
个数: 5
平均数: 150 / 5 = 30
什么中位数(Median)?
中位数是一组数据按照大小顺序排列后,位于最中间位置的数值。它不受极端值的影响,因为它只关注数据的排序和位置,而不是数值本身的大小。
计算中位数需要先对数据进行排序:
- 将所有数值按照从小到大(或从大到小)的顺序排列。
- 找出位于正中间位置的数值。
计算方法:
- 如果数值的个数是奇数: 中位数就是排序后位于最中间的那个数值。它的位置是 (数值个数 + 1) / 2。
- 如果数值的个数是偶数: 中位数是排序后位于最中间的两个数值的平均数。这两个数值的位置是 (数值个数 / 2) 和 (数值个数 / 2) + 1。
示例 1 (奇数个数):
数据集合: 10, 50, 20, 40, 30
排序后: 10, 20, 30, 40, 50
个数: 5 (奇数)
中间位置: (5 + 1) / 2 = 3
中位数: 位于第3个位置的数值,即 30
示例 2 (偶数个数):
数据集合: 10, 50, 20, 40, 30, 60
排序后: 10, 20, 30, 40, 50, 60
个数: 6 (偶数)
中间两个位置: 6 / 2 = 3 和 (6 / 2) + 1 = 4
中间两个数值: 位于第3个位置的 30 和位于第4个位置的 40
中位数: (30 + 40) / 2 = 35
中位数和平均数为什么不同?核心区别在哪里?
中位数和平均数计算方式的根本差异导致了它们在面对数据中的极端值(异常值)时表现出不同的特性。这是它们最核心的区别,也是决定何时使用哪一个的关键。
对极端值(异常值)的敏感性
平均数:对极端值敏感
平均数的计算是将所有数值相加,然后除以个数。这意味着数据集中每一个数值的大小都会直接影响最终的平均数结果。如果数据中存在一个或几个远大于或远小于其他数值的极端值,它们会把平均数“拉向”极端值的方向。
为什么敏感? 因为每个数据点都直接参与了总和的计算,一个极大的或极小的数值会不成比例地增加或减少总和,从而显著改变平均数。
示例:
考虑一组表示5个人薪水的数据(单位:元): 3000, 3500, 4000, 4500, 5000
平均数 = (3000 + 3500 + 4000 + 4500 + 5000) / 5 = 20000 / 5 = 4000 元
中位数(排序后:3000, 3500, 4000, 4500, 5000)= 4000 元
现在,假设这5个人中有一个是高管,薪水非常高: 3000, 3500, 4000, 4500, 100000
平均数 = (3000 + 3500 + 4000 + 4500 + 100000) / 5 = 115000 / 5 = 23000 元
中位数(排序后:3000, 3500, 4000, 4500, 100000)= 4000 元
在这个例子中,增加一个极高的薪水(100000元)使得平均数从4000元飙升到23000元,远远高于大多数人的薪水。而中位数仍然是4000元,它更能代表“典型”薪水的水平。
中位数:对极端值不敏感(或称为稳健)
中位数只取决于数据排序后的位置。即使数据集中存在非常大或非常小的数值,只要它们的数量不足以改变最中间一个或两个数值的位置,中位数就不会受到影响。即使极端值非常极端(比如上面的100000元换成1000000元),只要它仍然是最大值,中位数的位置和数值都不会改变。
为什么不敏感? 中位数只关注数据点在排序列表中的位置,而不关心它们的具体数值大小(除了用于确定排序和中间值本身)。极值只会影响排序列表的端点,而不会影响中心位置。
正因为这个特性,中位数被认为是更稳健(Robust)的中心趋势度量,特别适用于存在异常值或数据分布严重偏斜的情况。
反映的数据“中心”含义不同
- 平均数: 反映的是数据集合的算术平衡点,如果把数据看作物理上的质量分布,平均数就是这个分布的重心。它受每个数据点“拉力”的影响。
- 中位数: 反映的是数据集合的“中间点”,即有一半的数据小于或等于它,另一半的数据大于或等于它。它将数据集合在数量上平分为两半。
中位数和平均数在哪里使用?如何选择使用哪一个?
了解了中位数和平均数的区别后,选择使用哪一个取决于数据的特性以及你想通过这个数值传达什么信息。它们各自在不同的场景下有独特的优势。
何时使用平均数?
平均数适用于数据分布比较对称,且没有明显异常值的情况。它利用了数据集中的所有信息(每个数值的大小)。
- 对称分布的数据: 例如,学生的考试成绩、正常成年人的身高体重等,这些数据往往近似于对称分布(如正态分布)。在这种情况下,平均数和中位数通常非常接近。
- 需要考虑每个数值的贡献时: 当你想计算总体总量(通过平均数乘以个数)或分析每个数据点对整体的贡献时,平均数是更合适的选择。
- 进一步统计分析的基础: 许多其他统计方法(如标准差、方差、回归分析等)都基于平均数进行计算。
常见应用场景:
- 计算班级的平均考试分数。
- 计算一批产品的平均重量或尺寸(如果分布正常)。
- 科学实验中的平均测量结果。
何时使用中位数?
中位数适用于数据分布偏斜或存在异常值的情况。它能更好地代表“典型”数值,因为它不受极端值的影响。
- 偏斜分布的数据: 例如,收入水平、房价、资产净值等,这些数据往往是右偏的(少数人拥有很高收入/财富,多数人收入较低)。在这种情况下,平均数会被少数高值拉高,而中位数更能反映普通大众的水平。
- 存在异常值时: 当数据集中有明显错误或异常的记录时,使用中位数可以避免这些异常值对中心趋势估计的严重干扰。
- 数据是定序变量时: 对于只有顺序意义而没有数值计算意义的数据(如满意度等级:很不满意、不满意、一般、满意、很满意),中位数是比平均数更合适的中心趋势度量。
常见应用场景:
- 报告一个城市的家庭收入水平(通常报告中位数收入)。
- 描述一个社区的房价(通常报告中位数房价)。
- 分析包含异常数据的实验结果。
- 统计调查中反映“典型”意见或感受的度量。
如何根据数据选择?
一种实用的方法是先对数据进行探索性分析,包括绘制直方图或箱线图,或者计算偏度(skewness)。
- 如果数据分布大致对称且没有极端异常值,平均数和中位数会很接近,两者都可以使用,平均数提供了更多关于数值大小的信息。
- 如果数据分布明显偏斜或存在明显的异常值,中位数是更好的选择,因为它提供了对“典型”数值更稳健的估计。
- 在报告数据时,尤其是在偏斜分布的情况下,同时报告平均数和中位数(以及可能的其他度量如众数)可以提供更全面的信息。例如,可以说“平均月薪是23000元,但中位数月薪是4000元”,这立刻揭示了数据分布的严重不均衡。
计算中位数和平均数需要多少数据点?
从理论上讲,计算平均数和中位数都只需要至少一个数据点。
- 平均数: 只需要一个数据点(总和就是它自己,个数是1,平均数就是它自己)。
- 中位数: 同样只需要一个数据点(排序后它就是中间那个)。
然而,为了让平均数或中位数作为“中心趋势”的度量有意义,通常需要一组包含多个数值的数据。只有当数据点不止一个时,我们讨论它们之间的差异以及代表性才有实际意义。例如,对于两个数据点,平均数是它们的和除以2,中位数是它们排序后的平均值(如果个数是偶数,就取中间两个的平均)。
具体需要“多少”数据点才能得出有统计意义的结论,这取决于研究的目的、数据的变异性以及所需的精度,这不是中位数和平均数计算本身的要求,而是统计推断和样本量设计的问题。但就计算方法本身而言,最少1个数据点即可。
中位数和平均数怎么影响我们对数据的理解?
对中位数和平均数的理解程度直接影响我们如何解释数据并从中得出结论。误用或片面地只关注其中一个,可能导致对数据情况的严重误判。
- 隐藏的偏斜: 如前所述的薪水例子,如果只看到“平均月薪23000元”,可能会误认为这是一个普遍富裕的群体,而忽略了大多数人的薪水远低于此。中位数的存在揭示了这种右偏分布的真实情况。
- 夸大或缩小问题: 在报告环境污染水平、疾病发病率等数据时,如果存在少数极高的异常值,平均数可能会被显著拉高,从而夸大问题的严重性。反之,如果大多数数据很低但少数很高,中位数可能很低,可能会让人们低估问题的潜在风险(尤其是在风险由少数极端事件驱动时)。
- 政策制定和资源分配: 政府在制定最低工资标准、分配教育资源、规划医疗服务时,需要准确理解人群的真实生活水平和需求。仅仅依靠平均数可能导致政策偏离实际,而结合中位数等其他指标能提供更贴近现实的画像。
- 商业决策: 公司分析客户消费能力、产品受欢迎程度、员工绩效时,需要区分是大多数客户/员工处于某个水平(中位数更能反映),还是少数高价值客户/高绩效员工显著拉高了平均水平。这影响营销策略、产品定位和激励机制的设计。
因此,理解中位数和平均数的区别,并根据数据的具体分布和分析目的选择合适的度量,或同时报告两者以提供更全面的视角,对于避免误读数据和做出更明智的决策至关重要。它们不是互相替代的,而是从不同角度描述数据中心的互补工具。