几何分布的期望和方差详解：是什么、如何计算与推导、应用场景

在概率论中，几何分布是一个非常重要的离散概率分布，它描述了在一系列独立的、只有两种可能结果（成功或失败）的伯努利试验中，为了首次获得成功所需的试验次数。理解其核心特性，特别是期望和方差，对于应用几何分布解决实际问题至关重要。本文将深入探讨几何分布的期望和方差，包括它们是什么、公式是什么、为什么是这些公式（推导过程）、如何计算以及在哪些场景下可以使用它们来获取有价值的信息。

几何分布是什么？

在开始讨论期望和方差之前，我们先明确几何分布的定义。考虑一个伯努利试验，它有两个可能的结果：成功（概率为 p）和失败（概率为 1-p）。我们重复进行这个试验，每次试验的结果都是独立的。几何分布描述的是首次获得成功所需的试验次数 X。X 的可能取值为 1, 2, 3, …。

几何分布的概率质量函数 (PMF) 是：

P(X = k) = (1 – p)^k-1 * p

其中，k 是首次成功发生的试验次数 (k ≥ 1)，p 是单次试验成功的概率 (0 < p ≤ 1)。这个公式的含义是：为了在第 k 次试验时首次成功，前 k-1 次必须都是失败（概率为 (1-p)^k-1），并且第 k 次必须是成功（概率为 p）。

几何分布的期望是什么？

几何分布的期望，记作 E[X]，表示在几何分布模型下，平均需要进行多少次试验才能首次获得成功。

几何分布期望的公式是什么？

几何分布 X ~ Geo(p) 的期望公式非常简洁：

E[X] = 1 / p

其中，p 是单次试验成功的概率。

为什么几何分布的期望是 1/p？（推导过程）

理解这个公式为什么成立，需要用到期望的定义和级数的知识。对于一个离散随机变量 X，其期望定义为所有可能取值与其对应概率的乘积之和：

E[X] = Σ [k * P(X = k)]，求和范围从 k=1 到 ∞。

将几何分布的 PMF 代入：

E[X] = Σ [k * (1 – p)^k-1 * p]，求和范围从 k=1 到 ∞。

E[X] = p * Σ [k * (1 – p)^k-1]，求和范围从 k=1 到 ∞。

令 r = 1 – p。由于 0 < p ≤ 1，所以 0 ≤ r < 1。级数变为：

Σ [k * r^k-1]，求和范围从 k=1 到 ∞。

这是一个常见的幂级数的导数形式。我们知道几何级数的求和公式是：

Σ [r^k] = r + r² + r³ + … = r / (1 – r)，对于 |r| < 1，求和范围从 k=1 到 ∞。

或者， Σ [r^k] = 1 + r + r² + r³ + … = 1 / (1 – r)，对于 |r| < 1，求和范围从 k=0 到 ∞。

考虑对 Σ [r^k] = 1 / (1 – r) (k从0到无穷) 关于 r 求导：

左边： d/dr [1 + r + r² + r³ + …] = 0 + 1 + 2r + 3r² + … = Σ [k * r^k-1] (k从1到无穷)。

右边： d/dr [1 / (1 – r)] = d/dr [(1 – r)^-1] = -1 * (1 – r)^-2 * (-1) = 1 / (1 – r)².

所以，Σ [k * r^k-1] = 1 / (1 – r)²，求和范围从 k=1 到 ∞。

将 r = 1 – p 代回去：

Σ [k * (1 – p)^k-1] = 1 / (1 – (1 – p))² = 1 / p².

最后，将这个结果代回期望的公式：

E[X] = p * Σ [k * (1 – p)^k-1] = p * (1 / p²) = 1 / p。

这就是几何分布期望公式 E[X] = 1/p 的完整推导过程。它依赖于无穷级数的求和技巧。

如何理解和计算几何分布的期望？

计算几何分布的期望非常简单，只需要知道成功的概率 p，然后计算 1 除以 p 即可。

示例 1： 抛掷一枚均匀硬币，直到首次出现正面。成功的概率 p = 0.5。

期望的试验次数 E[X] = 1 / 0.5 = 2。

这意味着平均来说，你需要抛掷硬币 2 次才能首次得到正面。
示例 2： 某个产品的合格率为 80%。检查产品直到发现第一个合格品。成功的概率 p = 0.8。

期望的检查次数 E[X] = 1 / 0.8 = 1.25。

这意味着平均来说，你需要检查 1.25 个产品才能找到第一个合格品。请注意，期望值是理论平均值，实际试验次数一定是整数，但平均多次试验下来，平均值可以是小数。
示例 3： 某种罕见疾病的发病率为万分之一 (0.01%)。随机筛选人群直到发现第一个病例。成功的概率 p = 0.0001。

期望的筛选人数 E[X] = 1 / 0.0001 = 10000。

这意味着平均来说，你需要筛选 10000 个人才能发现第一个病例。

从这些例子可以看出，成功的概率 p 越小（事件越罕见），期望的试验次数 1/p 就越大，反之亦然。这符合我们的直觉：越难发生的事情，平均需要尝试的次数越多。

几何分布的方差是什么？

几何分布的方差，记作 Var(X)，度量了首次成功所需的试验次数 X 的分散程度或波动性。方差越大，意味着实际试验次数越可能偏离期望值；方差越小，实际试验次数越可能聚集在期望值附近。

几何分布方差的公式是什么？

几何分布 X ~ Geo(p) 的方差公式是：

Var(X) = (1 – p) / p²

其中，p 是单次试验成功的概率。

为什么几何分布的方差是 (1-p)/p²？（推导过程）

方差的常用计算公式是 Var(X) = E[X²] – (E[X])². 我们已经知道 E[X] = 1/p，所以 (E[X])² = (1/p)². 现在我们需要计算 E[X²]。

E[X²] 的定义是 Σ [k² * P(X = k)]，求和范围从 k=1 到 ∞。

E[X²] = Σ [k² * (1 – p)^k-1 * p]，求和范围从 k=1 到 ∞。

E[X²] = p * Σ [k² * (1 – p)^k-1]，求和范围从 k=1 到 ∞。

令 r = 1 – p。我们需要计算 Σ [k² * r^k-1] (k从1到无穷)。

我们知道 Σ [k * r^k-1] = 1 / (1 – r)² (k从1到无穷)。

将这个级数乘以 r： Σ [k * r^k] = r / (1 – r)² (k从1到无穷)。

现在对 Σ [k * r^k] (k从1到无穷) 关于 r 求导：

左边： d/dr [1r + 2r² + 3r³ + …] = 1 + 2*2r + 3*3r² + … = Σ [k² * r^k-1] (k从1到无穷)。

右边： d/dr [r / (1 – r)²]。使用除法定则：
d/dr [u/v] = (u’v – uv’) / v²
u = r, u’ = 1
v = (1 – r)², v’ = 2(1 – r)(-1) = -2(1 – r)
d/dr [r / (1 – r)²] = [1 * (1 – r)² – r * (-2(1 – r))] / [(1 – r)²]²
= [(1 – r)² + 2r(1 – r)] / (1 – r)⁴
= (1 – r) * [(1 – r) + 2r] / (1 – r)⁴
= (1 + r) / (1 – r)³.

所以，Σ [k² * r^k-1] = (1 + r) / (1 – r)³，求和范围从 k=1 到 ∞。

将 r = 1 – p 代回去：

Σ [k² * (1 – p)^k-1] = (1 + (1 – p)) / (1 – (1 – p))³ = (2 – p) / p³.

现在计算 E[X²]：

E[X²] = p * Σ [k² * (1 – p)^k-1] = p * [(2 – p) / p³] = (2 – p) / p².

最后，计算方差 Var(X) = E[X²] – (E[X])²：

Var(X) = (2 – p) / p² – (1 / p)²
Var(X) = (2 – p) / p² – 1 / p²
Var(X) = (2 – p – 1) / p²
Var(X) = (1 – p) / p².

这就是几何分布方差公式 Var(X) = (1-p)/p² 的完整推导过程。这个推导比期望的推导涉及更多级数求导的步骤。

如何理解和计算几何分布的方差？

计算几何分布的方差，只需要知道成功的概率 p，然后将 1-p 除以 p²。

方差的含义是衡量数据的离散程度。对于几何分布，方差越大，意味着首次成功所需的试验次数的变动性越大。

示例 1（续）： 抛掷一枚均匀硬币，直到首次出现正面。p = 0.5。

方差 Var(X) = (1 – 0.5) / 0.5² = 0.5 / 0.25 = 2。

标准差 (Standard Deviation) 是方差的平方根，衡量波动的典型大小：SD(X) = √2 ≈ 1.414。

这意味着，虽然平均需要 2 次抛掷，但实际次数可能在 2 的上下约 1.414 次范围内波动。
示例 2（续）： 产品合格率为 80%。检查产品直到发现第一个合格品。p = 0.8。

方差 Var(X) = (1 – 0.8) / 0.8² = 0.2 / 0.64 = 0.3125。

标准差 SD(X) = √0.3125 ≈ 0.559。

期望是 1.25，标准差较小 (0.559)，说明实际检查次数（通常是 1 次或 2 次）比较集中，不太会出现需要很多次才能找到第一个合格品的情况，这与高成功率 (p=0.8) 相符。
示例 3（续）： 罕见疾病发病率为万分之一。p = 0.0001。

方差 Var(X) = (1 – 0.0001) / 0.0001² = 0.9999 / 0.00000001 = 99990000。

标准差 SD(X) = √99990000 ≈ 9999.5。

期望是 10000，标准差接近 10000，这反映了极高的变动性。虽然平均需要 10000 人，但实际发现第一个病例可能只需要几个人（低概率事件也可能偶然很快发生），也可能需要几万甚至十几万人。方差巨大说明结果非常不稳定。

通过这些例子可以看出，成功的概率 p 越小，方差 (1-p)/p² 越大。当 p 接近 0 时，p² 变得非常小，导致方差趋近于无穷大。当 p 接近 1 时，1-p 趋近于 0，方差趋近于 0。这也符合直觉：成功率越高，所需试验次数越稳定，波动性越小。

在哪里可以使用几何分布的期望和方差？（应用场景）

几何分布的期望和方差在任何符合“重复独立伯努利试验直到首次成功”模式的场景中都有应用。理解并计算它们可以帮助我们预测平均情况以及结果的不确定性。

典型应用场景包括但不限于：

质量控制： 预测平均检查多少个产品才能发现第一个次品（如果关注次品，p就是次品率），或者平均检查多少个产品才能发现第一个合格品（如果关注合格品，p就是合格率）。方差可以衡量这个过程的稳定性。
市场营销/销售： 预测平均需要联系多少个潜在客户才能完成第一笔销售（p是单次联系成功的概率）。方差可以反映销售过程结果的波动性。
医学研究： 在药物筛选或基因测序中，预测平均需要测试多少样本才能找到第一个具有特定特征的样本（p是单个样本具有该特征的概率）。方差评估搜索效率的稳定性。
可靠性工程： 如果一个组件每次使用都有失败的概率 p，几何分布可以模型化该组件首次失效前的使用次数。期望就是平均无故障使用次数，方差衡量其可靠性的稳定性。
游戏和赌博： 在基于独立随机事件的游戏中（如掷骰子直到出现特定点数，抽牌直到抽中某张），期望可以预测平均尝试次数，方差衡量结果的不可预测性。
计算机科学： 在某些算法或协议中，可能需要重复尝试某个操作直到成功（例如网络通信中的重传）。如果每次尝试成功概率固定，几何分布可以模型化尝试次数。

在这些场景中，期望 1/p 给出了一个成本或时间的平均估计，而方差 (1-p)/p² 则提供了关于这种估计有多可靠（或者说，结果有多大变动）的信息。高方差意味着你需要为远高于平均水平的试验次数做好准备。

总结：如何计算几何分布的期望和方差？

概括来说，计算几何分布的期望和方差非常直接：

要计算期望 E[X]，只需确定单次试验成功的概率 p，然后使用公式：

E[X] = 1 / p
要计算方差 Var(X)，同样需要确定概率 p，然后使用公式：

Var(X) = (1 – p) / p²

这两个公式是几何分布最核心的参数，它们精确地捕捉了首次成功所需试验次数的平均水平和离散程度，是理解和应用几何分布的基础。通过简单的概率值 p，我们就能利用这两个公式快速获取关于这一随机过程的关键统计信息，避免了繁琐的重复试验或复杂的数值模拟。

几何分布的期望和方差