什么是样本方差公式?

在统计学中,我们常常需要了解一组数据的离散程度或波动大小。当无法获取总体(所有可能的数据点)的全部数据时,我们通常会抽取一个样本,并用样本的特征来估计总体的特征。样本方差就是这样一个重要的度量指标,它用来衡量样本数据点相对于样本均值的平均离散程度。

样本方差的定义与目的

样本方差是描述样本数据变异性的一个统计量。它的基本思想是计算样本中每个数据点与样本均值之间的差(称为离差),将这些离差平方后求和,然后除以一个特定的数值。为什么要平方呢?因为如果不平方直接求和,正负离差可能会相互抵消,导致总和为零,无法反映离散程度。平方确保了所有项都是非负的,并且放大了较大离差的影响。

样本方差的主要目的是作为总体方差的一个估计量。因为我们通常不知道总体方差是多少,所以利用样本的信息来推断总体是统计推断的核心任务之一。

常用的样本方差公式(无偏估计)

在大多数实际应用和统计推断中,我们使用的是“无偏样本方差”的公式。无偏性是一个重要的统计性质,意味着在多次重复抽样的情况下,由样本计算出的方差的平均值会接近真实的总体方差。这个公式通常表示为:

$$s^2 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1}$$

解释一下这个公式中的符号:

  • $s^2$:代表样本方差,有时也用 $V(X)$ 或 $Var(X)$ 表示,但 $s^2$ 是样本方差的标准符号。
  • $\sum_{i=1}^{n}$:这是一个求和符号,表示将后面的项从 $i=1$ 到 $n$ 全部加起来。
  • $x_i$:代表样本中的第 $i$ 个数据点的值。
  • $\bar{x}$:代表样本均值(sample mean),即样本中所有数据点之和除以样本大小 $n$。其公式为 $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$。
  • $(x_i – \bar{x})^2$:代表第 $i$ 个数据点与样本均值的差的平方,即离差平方。
  • $n$:代表样本的大小(样本中数据点的数量)。
  • $n-1$:这个分母称为“自由度”(degrees of freedom)。为什么是 $n-1$ 而不是 $n$?这是实现无偏估计的关键,后面会详细解释。

备选公式(有偏估计)

如果你直接将离差平方和除以样本大小 $n$,你得到的是“有偏样本方差”,有时也称为样本的二阶中心矩。其公式为:

$$s_n^2 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n}$$

虽然计算上更直观(平均离差平方),但这个公式计算出的方差会系统性地低估真实的总体方差,因此在进行统计推断时很少使用,主要用于描述性统计或作为计算无偏方差的一个中间步骤。当提到“样本方差公式”时,如果没有特别说明,通常指的是使用 $n-1$ 作为分母的无偏估计公式。

样本方差与总体方差的区别

理解样本方差,必须将其与总体方差区分开来:

  • 总体方差 ($\sigma^2$):衡量的是整个总体的离散程度。其公式的分母是总体的大小 $N$。$\sigma^2 = \frac{\sum_{i=1}^{N} (X_i – \mu)^2}{N}$,其中 $X_i$ 是总体中的数据点,$\mu$ 是总体均值,$N$ 是总体大小。总体方差通常是未知参数。
  • 样本方差 ($s^2$):衡量的是从总体中抽取的样本的离散程度,并且作为总体方差的估计量。其公式的分母是样本大小减一 ($n-1$)。

本质上,$s^2$ 是用样本数据来“猜测”未知的 $\sigma^2$ 是多少。

方差与标准差的关系

样本标准差 ($s$) 是样本方差 ($s^2$) 的平方根:

$$s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1}}$$

标准差与方差一样,都衡量数据的离散程度。不同之处在于,标准差的单位与原始数据的单位相同,这使得它在解释上比方差更直观。例如,如果数据是身高(米),方差的单位是平方米,而标准差的单位是米。因此,在描述数据的离散程度时,标准差往往比方差使用得更频繁。然而,方差在统计理论和计算中(尤其是涉及方差分析等领域)具有重要的数学性质。

为什么使用样本方差(特别是无偏公式)?

估计总体方差的必要性

在现实世界中,我们几乎不可能收集到总体的所有数据。例如,我们不可能测量所有美国成年人的身高来计算美国成年人身高的总体方差。我们只能采集一个随机样本(比如1000名美国成年人),然后利用这个样本的数据来估计所有美国成年人身高的方差。样本方差就是用于进行这种估计的工具。

理解贝塞尔校正(n-1 的原理)

这是关于样本方差公式中最常被问到的“为什么”——为什么分母是 $n-1$ 而不是 $n$?这个调整被称为贝塞尔校正 (Bessel’s correction)。

原因是:当我们计算样本的离差平方和时,我们使用的是样本均值 ($\bar{x}$),而不是真实的总体均值 ($\mu$)。样本均值是根据样本数据计算出来的,它总是“最接近”样本中所有数据点的值(因为它使得离差平方和最小)。因此,样本数据点到样本均值的离差,通常会小于它们到真实的总体均值的离差。

如果我们将离差平方和除以 $n$(即使用有偏公式 $s_n^2$),得到的平均离差平方会系统性地偏小,从而低估了真实的总体方差 $\sigma^2$。

数学上可以证明,将离差平方和除以 $n-1$(而不是 $n$)可以纠正这种低估,使得样本方差 $s^2$ 成为总体方差 $\sigma^2$ 的一个无偏估计量。也就是说,如果我们从总体中抽取很多个不同的样本,分别计算它们的样本方差 $s^2$,这些样本方差的平均值会非常接近真实的总体方差 $\sigma^2$。

自由度 ($n-1$) 的直观解释:在计算样本方差时,我们需要先计算出样本均值 $\bar{x}$。一旦样本均值确定了,样本中前 $n-1$ 个数据点的离差 $(x_i – \bar{x})$ 确定后,最后一个数据点的离差也就随之确定了(因为所有离差的和 $\sum (x_i – \bar{x})$ 总是等于零)。这意味着在计算离差平方和时,实际上只有 $n-1$ 个独立的离差值在起作用,因此我们说自由度是 $n-1$。这 $n-1$ 个独立的离差携带了关于总体方差的信息。

如何计算样本方差?(具体步骤与示例)

计算样本方差(使用无偏公式)的步骤非常直接:

手动计算步骤

  1. 计算样本均值 ($\bar{x}$):将样本中的所有数据点加起来,然后除以样本的大小 $n$。
  2. 计算每个数据点的离差 ($x_i – \bar{x}$):对于样本中的每一个数据点,用它的值减去刚刚计算出的样本均值。
  3. 计算每个离差的平方 ($(x_i – \bar{x})^2$):将上一步得到的每个离差进行平方。
  4. 计算离差平方和 ($\sum_{i=1}^{n} (x_i – \bar{x})^2$):将上一步得到的所有平方离差加起来。
  5. 除以自由度 ($n-1$):将离差平方和除以样本大小减一 ($n-1$),就得到了样本方差 $s^2$。

计算示例

假设我们有一个样本数据集,包含以下5个数值:4, 7, 3, 6, 5。现在我们来计算它的样本方差。

简单数据集:{4, 7, 3, 6, 5}

样本大小 $n = 5$。

  1. 计算样本均值 ($\bar{x}$)
    $\bar{x} = \frac{4 + 7 + 3 + 6 + 5}{5} = \frac{25}{5} = 5$
  2. 计算每个数据点的离差 ($x_i – \bar{x}$)
    • $4 – 5 = -1$
    • $7 – 5 = 2$
    • $3 – 5 = -2$
    • $6 – 5 = 1$
    • $5 – 5 = 0$
  3. 计算每个离差的平方 ($(x_i – \bar{x})^2$)
    • $(-1)^2 = 1$
    • $(2)^2 = 4$
    • $(-2)^2 = 4$
    • $(1)^2 = 1$
    • $(0)^2 = 0$
  4. 计算离差平方和 ($\sum_{i=1}^{5} (x_i – \bar{x})^2$)
    离差平方和 $= 1 + 4 + 4 + 1 + 0 = 10$
  5. 除以自由度 ($n-1$)
    自由度 $= n – 1 = 5 – 1 = 4$
    样本方差 $s^2 = \frac{10}{4} = 2.5$

所以,这个样本的样本方差是 2.5。样本标准差 $s = \sqrt{2.5} \approx 1.58$.

样本方差在哪里使用和计算?

样本方差作为一个衡量数据离散程度的基本统计量,在许多领域都有广泛的应用。它几乎是任何涉及数据分析和统计推断的领域的基础工具之一。

实际应用领域

  • 统计学与数据分析:这是最核心的应用领域,用于描述数据集的变异性,是进行各种统计检验(如t检验、方差分析ANOVA等)的前提。
  • 科学研究:在实验设计和结果分析中,用于评估实验数据的稳定性、比较不同处理组之间的变异性。
  • 质量控制:在制造业中,用于衡量产品尺寸、重量等指标的波动性,评估生产过程是否稳定。
  • 金融分析:用于衡量股票、债券等资产收益率的波动性,即风险大小。方差越大,波动越大,通常认为风险越高。
  • 社会科学:如心理学、教育学等,用于分析调查数据或测试分数的离散程度。
  • 气象学/环境科学:分析气温、降雨量等数据的波动性。

在计算工具中的实现

虽然手动计算有助于理解公式,但在实际工作中,通常使用各种软件或编程语言来计算样本方差。

Excel

Excel 提供了内置函数来计算样本方差:

  • VAR.S(number1, [number2], ...):计算基于样本的方差(使用 $n-1$ 作为分母,即无偏估计)。这是在 Excel 2010 及更高版本中推荐使用的样本方差函数。
  • VAR(number1, [number2], ...):在旧版 Excel 中,这个函数也是计算基于样本的方差。在新版中为了区分总体和样本,推荐使用 VAR.S
  • VAR.P(number1, [number2], ...):计算基于总体的方差(使用 $n$ 作为分母)。注意不要将这个函数用于样本数据估计总体方差。

只需将你的数据范围作为参数输入即可。

Python (Pandas/NumPy)

在 Python 中,常用的科学计算库 NumPy 和数据分析库 Pandas 都提供了计算样本方差的函数。默认情况下,它们计算的是无偏样本方差(分母为 $n-1$)。

  • NumPy
    import numpy as np
    data = np.array([4, 7, 3, 6, 5])
    sample_variance = np.var(data, ddof=1) # ddof=1 指定自由度减1
    print(sample_variance) # 输出 2.5

    如果你不指定 ddof=1,默认的 ddof=0 会计算有偏方差(除以 $n$)。

  • Pandas:DataFrame或Series对象有内置方法:
    import pandas as pd
    data = pd.Series([4, 7, 3, 6, 5])
    sample_variance = data.var() # 默认 ddof=1,计算无偏样本方差
    print(sample_variance) # 输出 2.5

    Pandas 的 .var() 方法默认就是计算无偏样本方差,非常方便。

R

在 R 语言中,计算样本方差非常直接:

  • var(x, na.rm = FALSE):这个函数默认就计算无偏样本方差(分母为 $n-1$)。
    data <- c(4, 7, 3, 6, 5)
    sample_variance <- var(data)
    print(sample_variance) # 输出 2.5

这些工具使得在处理大型数据集时计算样本方差变得非常高效和便捷。

如何理解样本方差的值(“多少”的含义)?

计算出样本方差的数值后,理解这个数值的意义同样重要。样本方差的“大小”本身是相对的,需要结合数据的具体背景来解释。

值的解释

  • 较大的样本方差:意味着样本数据点相对其均值更加分散。数据点之间的差异较大,变异性高。
  • 较小的样本方差:意味着样本数据点更紧密地聚集在其均值附近。数据点之间的差异较小,变异性低。
  • 样本方差为零:只有当样本中所有数据点的值都完全相同时,样本方差才为零。这表示数据没有任何变异性。

例如,在质量控制中,如果测量同一批次产品的某个尺寸,样本方差很小,说明生产过程稳定,产品尺寸一致性高;如果样本方差很大,则说明生产过程存在较大的波动,产品尺寸差异大,可能需要查找原因并调整工艺。在金融领域,投资组合的样本方差或标准差常被用作衡量风险的指标,波动越大(方差越大),风险通常被认为越高。

重要的是,样本方差的数值大小没有绝对的判断标准,它必须与其他数据集的方差进行比较,或者与某个预设的目标或基准进行比较才有意义。例如,你不能说“样本方差是10就很高”,这取决于你的数据是什么。如果你的数据是考试分数(0-100分),方差10可能算中等偏小;但如果你的数据是微米级的尺寸偏差,方差10可能就非常巨大了。

单位

样本方差的单位是原始数据单位的平方。这是因为公式中计算了离差的平方。这使得方差的数值不如标准差直观。例如,如果你的数据单位是“美元”,那么样本方差的单位就是“美元的平方”。如果你的数据单位是“千克”,样本方差的单位就是“千克的平方”。正因如此,我们经常计算样本标准差(单位与原始数据一致)来描述数据的离散程度。

样本大小对样本方差的影响

样本大小 $n$ 直接影响样本方差的计算(体现在分母 $n-1$ 中),更重要的是,它影响样本方差作为总体方差估计量的可靠性

一般来说:

  • 样本越大 ($n$ 越大):样本方差 $s^2$ 作为总体方差 $\sigma^2$ 的估计会越稳定、越可靠。来自大样本的估计量通常具有更小的抽样误差,更能代表总体的真实变异性。
  • 样本越小 ($n$ 越小):样本方差 $s^2$ 的波动性会越大,作为总体方差的估计也就越不稳定。一个小样本可能恰好包含了几个极端值,导致样本方差远高于或远低于真实的总体方差。

在样本量很小的情况下(例如 $n < 30$),样本方差的估计可能很不精确。随着样本量的增加,样本方差的抽样分布会逐渐集中在总体方差的真实值附近,使得估计更加可靠。这也是为什么在进行一些统计推断(如构建置信区间、进行假设检验)时,样本大小是一个关键考虑因素。