2.3 用一个变量预测另一个变量
简单线性回归是一个强大的工具,用来测量你看不见的事物或预测尚未发生事件的结果。有了统计学这个特殊朋友帮忙,你能通过观察某个人在一个变量上的表现,来精确估计他在另一个变量上的得分。
无论在社会科学领域还是其他领域,专家们往往需要预测一个人在某项任务上的表现或是在某个变量上的得分,却无法直接测量这些关键变量。比如,在大学进行录取决策时,这是一个普遍需求。招生委员会想要预测学生入学后的表现(平均绩点或毕业时的总绩点),但是,因为学生并没有实际入学,招生委员会必须利用当前掌握的信息去推测未来。
学校总是用标准化的高考分数作为估测学生未来学业表现的一个指标。假设一所小型大学决定使用美国大学入学考试(ACT)的分数作为学生第一年期末平均绩点(GPA)的一个预测指标。招生委员会回顾了几百个大一学生的GPA以及他们的ACT分数。让他们高兴的是,他们发现这两个变量间存在中等程度相关:相关系数是0.55。
相关系数是两个变量间线性相关的强度度量[Hack #11],相关系数为0.55表明相关强度相当大。这是一个好消息,因为上述两个变量间相关的存在,使得ACT分数成为估计GPA分数的一个很好的候选指标。
简单线性回归是这样一种方法,它可以生成用来“烹制”预测未来魔法方程的所有数值。这方法生成了一条回归线,画出这条回归线,我们就能判断未来情况如何[Hack #12]。不过,只要有了这个方程式,我们就不再需要通过实际作图去预测。
2.3.1 烹饪方程式
首先,请仔细阅读创造公式的“食谱”(参考“回归方程食谱”),然后我们来看如何用它处理真实数据。你可以把这个食谱剪下来放到厨房抽屉里。
回归方程食谱
配料
相关变量的样本数据2个:
效标变量(你想要预测的变量)1个
预测变量(用作预测指标的变量)1个
两变量之间的相关系数1个
样本平均值2个
样本标准差2个
容器
空方程式一个,形式如下:
效标=常量+(预测变量×权重)
操作方法
计算用于与预测变量相乘的权重:
权重=相关系数×效标标准差/预测标准差
计算常量:
常量=效标平均数-(权重×预测平均数)
把刚才算出的常量和权重填入空的回归方程。
适合的对象
每个对估计假设结果感兴趣的人
回归方程还需要另外两样配料,即两个变量的平均数和标准差。以下是我们例子中的统计值:
| 变量 | 平均数 | 标准差 |
|---|---|---|
| ACT分数 | 20.10 | 2.38 |
| GPA | 2.98 | 0.68 |
不妨回顾“仅用两个数字描述世界”[Hack #2],复习平均数和标准差的概念。
招生委员会通过这些信息建立了一个回归方程。结果是,由于所有的申请函都寄到了招生委员会办公室,工作人员能够把学生的ACT分数输入回归方程并预测他的GPA。我们来看一个例子,计算回归方程的各项:

我们把所有信息代入回归方程,便得到通过ACT分数预测GPA分数的公式:

注意这个例子中常量是一个负值。那没有关系。
2.3.2 预测分数
还是那个大学录取的例子,想象招生委员会接到两份申请。一位申请者名叫梅利莎,ACT分数是26分。另一位申请者布鲁斯的ACT分数是14分。
使用我们刚建立的回归方程运算可知,这两人最终的平均绩点会有两个不同的结果:
- 梅利莎
- 预测的GPA=-0.24+(26×0.16)
- 预测的GPA=-0.24+4.16
- 预测的GPA=3.90
- 布鲁斯
- 预测的GPA=-0.24+(14×0.16)
- 预测的GPA=-0.24+2.24
- 预测的GPA=2.00
站在布鲁斯的立场,我希望这所大学的招生名额不止一个。
本例中的两个变量,即ACT和GPA分数,有着不同的度量尺度:ACT分数通常介于1~36,而GPA分数介于0~4.0。相关分析的一个奇妙之处就是,变量的度量尺度可以不同,这没有关系。预测的结果不知怎么就能符合效标变量的度量尺度。听起来有点怪异,是吧?
2.3.3 生效原理
当两个变量彼此相关,它们提供的信息有重叠之处,就如同二者共享信息一样。统计学家有时用相关信息来讨论变量共享变异。
如果一个变量的变异能部分地被另一个变量的变异所解释,那就可以理解,聪明的数学家何以能用一个相关变量去估计另一个变量上平均值的变异(或是距平均值的距离)。他们可能需要用一些数字代表变量的平均值和变异性,用另一个值代表信息重叠度。我们的回归方程包含平均值、标准差和相关系数,这样就使用了上述所有信息。
2.3.4 其他生效领域
回归不仅用在预测上,在回答研究问题上也非常有用。有时候,科学家只想了解一个变量,弄清它的作用原理或在总体中是如何分布的。他们可以通过查看该变量如何与(他们更了解的)另一个变量发生关联来达到目的。
统计学家口中的简单线性回归之所以被称为“简单”(simple),不是因为它很容易(easy),而是因为它只用到一个预测变量。这种简单是相对于复杂而言的。现实生活中,类似于我们所举例子的预测用到的变量总是不止一个,而是很多。使用多个预测变量来预测效标变量的方法叫做多元回归[Hack #14]。
2.3.5 不适用领域
在三种情况下预测会出现错误。第一,如果两变量间的相关不完美,预测也不会非常准确。鉴于在预测变量和效标变量之间几乎从来不存在真正的大相关,更不用说完美的1.0相关,所以现实世界里回归的应用结果错误百出。尽管如此,只有存在任何相关,预测就比盲目猜测更准确。你可以通过标准误差估计[Hack #18]来算出误差的大小。
第二,线性回归假定关系是线性的。这在“相关图表”[Hack #12]里详细讨论过,但如果相关的强度在分数分布区间的不同点上存在变化,那么在一些情况下回归预测会产生很大的误差。
第三,如果最初收集的用于确定回归方程中各个值的数据不具备对未来数据的代表性,那么预测结果就会出错。比如,在大学录取的例子中,如果一个申请者的ACT分数是36分,那么预测的GPA值将为5.52分。这是一个不可能的值,甚至都不匹配GPA的度量尺度,GPA最大值为4.0。因为用来建立预测方程所用的过往数据极少或根本没包含ACT为36的值,以致回归方程无法处理如此之高的分数。
