相关系数 r,通常指的是皮尔逊(Pearson)积差相关系数,是衡量两个定量变量之间线性关系强度和方向的指标。它的计算依赖于一个特定的公式,该公式通过考量两个变量如何共同变化(协方差)相对于它们各自如何变化(标准差)来标准化度量结果。
相关系数r的计算公式——是什么?
皮尔逊相关系数 r 的计算公式是基于样本数据对 (x₁, y₁), (x₂, y₂), …, (xn, yn) 得出的。其最常见的计算形式如下:
r = &frac; Σ[(xi – x)(yi – y)] / √[ Σ(xi – x)² × Σ(yi – y)² ]
让我们分解这个公式的各个组成部分:
- xi 和 yi:代表第 i 对数据点中变量 X 和变量 Y 的具体观测值。
- x:代表变量 X 的样本平均值(x = &frac; Σxi / n)。
- y:代表变量 Y 的样本平均值(y = &frac; Σyi / n)。
- n:代表样本中的数据对的数量。
- Σ (Sigma):代表求和符号,表示对其后的表达式在所有数据对(从 i=1 到 n)上进行求和。
- (xi – x):代表第 i 个 X 值与其平均值之间的差,称为 X 的离差。
- (yi – y):代表第 i 个 Y 值与其平均值之间的差,称为 Y 的离差。
公式的构成:分子与分母
公式可以看作是分子除以分母:
- 分子:Σ[(xi – x)(yi – y)]
这是 X 的离差与 Y 的离差的乘积之和。它反映了 X 和 Y 共同变化的趋势。如果 X 和 Y 同时高于或低于各自的平均值,乘积为正;如果一个高于平均值而另一个低于平均值,乘积为负。这个求和结果与协方差密切相关(样本协方差是这个和除以 n-1)。它度量了两个变量的线性关联程度,但其数值大小受原始数据的单位影响。 - 分母:√[ Σ(xi – x)² × Σ(yi – y)² ]
这是 X 的离差平方和 (Σ(xi – x)²) 与 Y 的离差平方和 (Σ(yi – y)²) 的乘积的平方根。- Σ(xi – x)² 是 X 的离差平方和 (Sum of Squares for X, SSx)。
- Σ(yi – y)² 是 Y 的离差平方和 (Sum of Squares for Y, SSy)。
离差平方和与方差和标准差密切相关(样本方差是离差平方和除以 n-1;样本标准差是方差的平方根)。分母实际上是 X 的样本标准差与 Y 的样本标准差的乘积乘以 √[(n-1)(n-1)],再除以 n-1。简单来说,分母代表了 X 和 Y 各自的总变异程度。它用于对分子进行标准化,消除单位影响,并确保 r 值落在 [-1, 1] 的区间内。
为什么用这个公式?
这个公式设计的目的是为了得到一个标准化的、无量纲的度量值,用来描述两个定量变量之间线性关系的强度和方向。简单来说:
- 度量线性关系: 公式中的离差乘积和(分子)是度量两个变量线性关联的直接方式。
- 标准化: 通过除以各自变异性的乘积(分母),我们将度量结果标准化。这使得相关系数 r 的值不受原始数据单位的影响,无论是厘米还是英寸,是公斤还是磅,计算出的 r 值都是相同的。
- 限制范围: 标准化过程将 r 的值限制在 -1 到 +1 之间,这个固定的范围使得我们可以方便地比较不同数据集之间的相关性强度。
因此,这个公式是将协方差(衡量共同变异)与其各自标准差的乘积(衡量个体变异)进行比较,从而提供一个标准化的线性关联度量。
相关系数r的可能取值——多少?
相关系数 r 的取值范围严格限制在 -1 到 +1 之间:
- r = +1: 表示 X 和 Y 之间存在完美的正线性关系。当 X 增加时,Y 也以恒定的速率增加,所有数据点都落在一条具有正斜率的直线上。
- r = -1: 表示 X 和 Y 之间存在完美的负线性关系。当 X 增加时,Y 以恒定的速率减小,所有数据点都落在一条具有负斜率的直线上。
- r = 0: 表示 X 和 Y 之间不存在线性关系。数据点散布在图表上,没有明显的线性趋势。需要注意的是,r=0 不代表两个变量之间没有任何关系,可能存在非线性关系。
- 0 < r < +1: 表示 X 和 Y 之间存在不同强度的正线性关系。r 越接近 +1,线性关系越强。
- -1 < r < 0: 表示 X 和 Y 之间存在不同强度的负线性关系。r 越接近 -1,线性关系越强。
通常,我们会根据 r 的绝对值大小来判断线性关系的强度(例如,|r| 接近 1 为强相关,接近 0 为弱相关或无相关),并根据符号判断方向(正或负)。
相关系数r的计算——哪里获取数据?
计算相关系数 r 所需的数据来源于您希望分析其线性关系的两个变量的配对观测值。这些数据通常来自:
- 实验测量: 例如,记录同一批植物在不同光照强度下的生长高度和叶片数量。
- 调查问卷: 例如,收集同一群体的学习时长和考试分数。
- 历史记录: 例如,同一时期内某商品的广告投入和销售额。
- 观察性研究: 例如,同一城市不同区域的人口密度和绿化面积。
关键在于,数据必须是成对出现的,即每个 X 值都对应一个特定的 Y 值,并且 X 和 Y 必须是定量变量(可以用数值表示且数值具有意义)。
相关系数r的计算——如何/怎么一步步计算?
虽然现代统计软件和计算器可以快速计算 r,但理解其手工计算步骤有助于深入理解公式的含义。以下是根据样本数据对 (xi, yi) 计算相关系数 r 的详细步骤:
-
准备数据:
收集您的配对样本数据 (x₁, y₁), (x₂, y₂), …, (xn, yn)。确定样本数量 n。 -
计算 X 的平均值 (x):
将所有 X 值相加,然后除以样本数量 n。x = (x₁ + x₂ + … + xn) / n = &frac; Σxi / n
-
计算 Y 的平均值 (y):
将所有 Y 值相加,然后除以样本数量 n。y = (y₁ + y₂ + … + yn) / n = &frac; Σyi / n
-
计算每个数据点的离差:
对于每一对 (xi, yi),分别计算 X 的离差 (xi – x) 和 Y 的离差 (yi – y)。 -
计算分子的求和项 (离差乘积之和):
对于每一对数据,将 X 的离差与 Y 的离差相乘:(xi – x)(yi – y)。然后将所有这些乘积相加,得到分子:分子 = Σ[(xi – x)(yi – y)]
-
计算分母的求和项 (离差平方和):
- 对于每个 X 的离差 (xi – x),计算其平方:(xi – x)²。将所有这些平方值相加,得到 X 的离差平方和 (SSx)。
SSx = Σ(xi – x)² - 对于每个 Y 的离差 (yi – y),计算其平方:(yi – y)²。将所有这些平方值相加,得到 Y 的离差平方和 (SSy)。
SSy = Σ(yi – y)²
- 对于每个 X 的离差 (xi – x),计算其平方:(xi – x)²。将所有这些平方值相加,得到 X 的离差平方和 (SSx)。
-
计算分母:
将 X 的离差平方和 (SSx) 与 Y 的离差平方和 (SSy) 相乘,然后取平方根。分母 = √[ SSx × SSy ] = √[ Σ(xi – x)² × Σ(yi – y)² ]
-
计算相关系数 r:
用步骤 5 中计算的分子除以步骤 7 中计算的分母。r = 分子 / 分母
计算示例:
假设我们有以下 5 对数据 (n=5):
| X | Y |
|—|—|
| 1 | 3 |
| 2 | 5 |
| 3 | 7 |
| 4 | 8 |
| 5 | 12 |
我们来一步步计算 r:
- 数据和 n: n = 5。
-
计算 x:
Σx = 1 + 2 + 3 + 4 + 5 = 15
x = 15 / 5 = 3 -
计算 y:
Σy = 3 + 5 + 7 + 8 + 12 = 35
y = 35 / 5 = 7 -
计算离差:
| xi | yi | xi – x (xi – 3) | yi – y (yi – 7) | (xi – x)(yi – y) | (xi – x)² | (yi – y)² |
|—-|—-|——————-|——————-|—————————–|—————–|—————–|
| 1 | 3 | 1 – 3 = -2 | 3 – 7 = -4 | (-2) * (-4) = 8 | (-2)² = 4 | (-4)² = 16 |
| 2 | 5 | 2 – 3 = -1 | 5 – 7 = -2 | (-1) * (-2) = 2 | (-1)² = 1 | (-2)² = 4 |
| 3 | 7 | 3 – 3 = 0 | 7 – 7 = 0 | 0 * 0 = 0 | 0² = 0 | 0² = 0 |
| 4 | 8 | 4 – 3 = 1 | 8 – 7 = 1 | 1 * 1 = 1 | 1² = 1 | 1² = 1 |
| 5 | 12 | 5 – 3 = 2 | 12 – 7 = 5 | 2 * 5 = 10 | 2² = 4 | 5² = 25 |
-
计算分子 (离差乘积之和):
Σ[(xi – x)(yi – y)] = 8 + 2 + 0 + 1 + 10 = 21
分子 = 21 -
计算分母的求和项 (离差平方和):
SSx = Σ(xi – x)² = 4 + 1 + 0 + 1 + 4 = 10
SSy = Σ(yi – y)² = 16 + 4 + 0 + 1 + 25 = 46 -
计算分母:
分母 = √[ SSx × SSy ] = √[ 10 × 46 ] = √460
√460 ≈ 21.4476 -
计算相关系数 r:
r = 分子 / 分母 = 21 / 21.4476 ≈ 0.9791
计算结果 r ≈ 0.9791,这个值非常接近 +1,表明在这组数据中,X 和 Y 之间存在非常强的正线性关系。
通过上述步骤和示例,您可以看到相关系数 r 的计算公式是如何将数据点之间的离散程度及其共同变动趋势转化为一个标准化的度量值的。