卡方分布的期望和方差详细解析与推导

引言：理解卡方分布的基础

在概率论和统计学中，卡方分布（Chi-squared distribution），通常用 χ² 表示，是一种非常重要的连续概率分布。它源于标准正态分布。具体来说，如果 Z₁, Z₂, …, Zk 是 k 个相互独立同分布的标准正态随机变量（即它们的均值为 0，方差为 1），那么这 k 个随机变量的平方和构成一个服从自由度为 k 的卡方分布的随机变量：

χ²k = Z₁² + Z₂² + … + Zk²

自由度 k 是卡方分布的一个关键参数，它决定了分布的形态。卡方分布在统计推断中有着广泛的应用，例如在卡方检验（用于检验分类变量的独立性、拟合优度）、方差分析以及构建正态总体的置信区间等。理解卡方分布的期望和方差是掌握其性质和应用的基础。

卡方分布的期望是什么？

定义与公式

【是什么】 对于一个自由度为 k 的卡方随机变量 χ²k，它的期望（或称均值）是多少？这是一个基本的问题。卡方分布的期望与其自由度紧密相关。

【公式】 自由度为 k 的卡方分布的期望为：

E(χ²k) = k

【多少】 这意味着，如果一个卡方分布的自由度是 5，那么它的期望就是 5。如果自由度是 100，期望就是 100。期望值直接等于其自由度参数。

如何计算卡方分布的期望？

【如何】 计算一个已知自由度的卡方分布的期望非常直接，只需要知道其自由度 k 即可。期望值就是 k 本身。你不需要查看任何表格或进行复杂的积分运算，只需要识别出分布的自由度参数。

例如，一个卡方检验的结果报告了 χ² 统计量服从自由度为 3 的卡方分布，那么这个分布的期望就是 3。
在构建置信区间时，如果用到了自由度为 n-1 的卡方分布，那么这个分布的期望就是 n-1。

卡方分布的方差是什么？

定义与公式

【是什么】 方差衡量了随机变量取值的离散程度或波动性。对于自由度为 k 的卡方随机变量 χ²k，它的方差是多少？

【公式】 自由度为 k 的卡方分布的方差为：

Var(χ²k) = 2k

【多少】 这意味着，如果一个卡方分布的自由度是 5，那么它的方差就是 2 * 5 = 10。如果自由度是 100，方差就是 2 * 100 = 200。方差值是其自由度的两倍。

如何计算卡方分布的方差？

【如何】 计算一个已知自由度的卡方分布的方差同样非常简单，只需要知道其自由度 k。方差值是 2 乘以 k。

例如，在对某个模型的拟合优度进行卡方检验时，如果卡方统计量服从自由度为 7 的卡方分布，那么这个分布的方差就是 2 * 7 = 14。
理解方差有助于理解卡方分布的“胖瘦”程度。自由度越大，方差越大，分布越分散。

为什么卡方分布的期望是 k，方差是 2k？（详细推导）

【为什么】【如何】【怎么】 这里的“为什么”和“如何/怎么”涉及数学上的推导过程。卡方分布由独立标准正态随机变量的平方和构成这一事实，是推导其期望和方差的关键。我们需要利用期望和方差的基本性质以及标准正态分布的矩（期望、方差、四阶矩等）。

前提：标准正态分布的性质

设 Z 是一个服从标准正态分布 N(0, 1) 的随机变量。我们需要以下性质：

期望：E(Z) = 0
方差：Var(Z) = E(Z²) – [E(Z)]² = 1。因此，E(Z²) = 1 + [E(Z)]² = 1 + 0² = 1。
四阶矩：E(Z⁴) = 3。这是标准正态分布的一个重要性质，可以通过积分或矩生成函数求得。

此外，如果 Z₁ 和 Z₂ 是相互独立的标准正态随机变量，那么它们的函数 g(Z₁) 和 h(Z₂) 也是相互独立的，并且 E[g(Z₁)h(Z₂)] = E[g(Z₁)]E[h(Z₂)]。特别是，对于 i ≠ j，E[Zᵢ²Zⱼ²] = E[Zᵢ²]E[Zⱼ²]。

期望的推导

回想卡方分布的定义：χ²k = Z₁² + Z₂² + … + Zk²，其中 Z₁, …, Zk 是相互独立的标准正态随机变量。

利用期望的线性性质（即 E(aX + bY) = aE(X) + bE(Y)，可以推广到多个随机变量的和）：

E(χ²k) = E(Z₁² + Z₂² + … + Zk²)

E(χ²k) = E(Z₁²) + E(Z₂²) + … + E(Zk²)

由于每个 Zᵢ 都服从标准正态分布，我们知道 E(Zᵢ²) = 1 对于所有的 i = 1, 2, …, k 都成立。

因此，将 E(Zᵢ²) = 1 代入上式：

E(χ²k) = 1 + 1 + … + 1 (共 k 项)

E(χ²k) = k

推导完毕。期望的计算相对直接，主要依赖于期望的线性性质和标准正态变量平方的期望。

方差的推导

方差的推导稍微复杂一些。我们利用方差的公式：Var(X) = E(X²) – [E(X)]²。

我们已经知道 E(χ²k) = k。所以，我们需要计算 E[(χ²k)²]。

E[(χ²k)²] = E[(Z₁² + Z₂² + … + Zk²)²]

平方展开这个和项：

(Σᵢ Zᵢ²)² = Σᵢ (Zᵢ²)² + Σᵢ≠ⱼ Zᵢ² Zⱼ²

= Σᵢ Zᵢ⁴ + Σᵢ≠ⱼ Zᵢ² Zⱼ²

因此，利用期望的线性性质：

E[(χ²k)²] = E[Σᵢ Zᵢ⁴ + Σᵢ≠ⱼ Zᵢ² Zⱼ²]

= E[Σᵢ Zᵢ⁴] + E[Σᵢ≠ⱼ Zᵢ² Zⱼ²]

= Σᵢ E[Zᵢ⁴] + Σᵢ≠ⱼ E[Zᵢ² Zⱼ²]

对于 Σᵢ E[Zᵢ⁴] 这部分，共有 k 项，每一项都是 E[Z⁴]。我们知道标准正态分布的四阶矩 E[Z⁴] = 3。所以 Σᵢ E[Zᵢ⁴] = k * 3 = 3k。

对于 Σᵢ≠ⱼ E[Zᵢ² Zⱼ²] 这部分，共有 k(k-1) 项（从 k 个不同的 Zi² 和 Zj² 中选择，顺序有关系，所以是 P(k, 2) = k(k-1) 种组合）。由于 Zᵢ 和 Zⱼ (i ≠ j) 是相互独立的，Zᵢ² 和 Zⱼ² 也是相互独立的。因此，E[Zᵢ² Zⱼ²] = E[Zᵢ²]E[Zⱼ²]。

我们知道 E[Zᵢ²] = 1 且 E[Zⱼ²] = 1。所以，对于所有的 i ≠ j，E[Zᵢ² Zⱼ²] = 1 * 1 = 1。

因此，Σᵢ≠ⱼ E[Zᵢ² Zⱼ²] = k(k-1) * 1 = k(k-1) = k² – k。

将这两部分加起来，得到 E[(χ²k)²]：

E[(χ²k)²] = 3k + (k² – k) = k² + 2k

现在，我们可以计算方差了：

Var(χ²k) = E[(χ²k)²] – [E(χ²k)]²

Var(χ²k) = (k² + 2k) – (k)²

Var(χ²k) = k² + 2k – k²

Var(χ²k) = 2k

推导完毕。方差的计算需要利用到标准正态分布的四阶矩以及独立随机变量平方和的期望计算技巧。

期望和方差随自由度的变化

【多少】 从期望 E(χ²k) = k 和方差 Var(χ²k) = 2k 的公式中，我们可以清晰地看到它们与自由度 k 的关系：

期望随自由度变化： 期望与自由度呈线性关系，且斜率为 1。自由度 k 越大，期望越大。卡方分布的中心位置随着自由度的增加向右移动。
方差随自由度变化： 方差与自由度呈线性关系，且斜率为 2。自由度 k 越大，方差越大。卡方分布的形状随着自由度的增加变得越来越“扁平”和分散。

当自由度 k 很小时（例如 k=1 或 k=2），卡方分布是高度偏斜的。随着 k 的增加，卡方分布逐渐变得对称，并且根据中心极限定理，当 k 足够大时，卡方分布近似于一个正态分布 N(k, 2k)。这意味着，对于大的自由度 k，卡方分布的均值接近 k，标准差接近 √(2k)。

期望和方差的应用场景

【哪里】 虽然期望和方差本身不是卡方检验的最终统计量（最终统计量是 χ² 检验统计量与临界值或 p 值比较），但理解它们的意义和数值对于理解卡方分布的整体行为以及在统计推断中解释结果至关重要：

理解分布形态： 期望和方差提供了卡方分布中心位置和离散程度的信息，帮助我们可视化不同自由度下卡方分布的形状。
检验统计量的性质： 在各种卡方检验中，构建的检验统计量在原假设下服从特定的卡方分布。理解这个理论分布的期望和方差，有助于理解检验统计量在原假设成立时应有的平均表现和波动范围。例如，卡方拟合优度检验统计量的期望近似于自由度，如果计算出的统计量远大于这个期望（或者说在分布的右侧尾部），就提供了拒绝原假设的证据。
模拟与验证： 在进行统计模拟或验证统计方法时，了解卡方分布的理论期望和方差可以用来检查模拟结果是否符合理论预期。
理论分析： 在更深入的概率论和数理统计研究中，卡方分布的矩（包括期望和方差）是推导其他分布性质或统计量性质的基础。

总结

卡方分布的期望和方差是其最核心的两个参数特征。

自由度为 k 的卡方分布 χ²k 的期望是 E(χ²k) = k。
自由度为 k 的卡方分布 χ²k 的方差是 Var(χ²k) = 2k。

这两个简洁的公式直接表明了卡方分布的中心位置和离散程度随自由度线性变化。它们的推导依赖于卡方分布作为独立标准正态随机变量平方和的定义，以及标准正态分布的矩和独立性等基本性质。理解这些性质有助于更好地应用卡方分布于各种统计分析任务中。

卡方分布的期望和方差