2.4　用多个变量预测单个变量

任何统计黑客都可掌握预测未来和看到不可见事物的超能力，只要他们觉得这种能力有价值。统计学家总是用一个变量预测另外一个，以此来回答问题，并用相关信息来解决问题。但为了更准确地进行预测，可以使用多元回归的方法，将不同的预测变量结合在同一个回归方程里。

“相关图表”[Hack #12]中讨论了回归线在预测方面的有用性。利用这些方法，行政人员和统计研究人员能够预测尚未发生的评估表现，理解变量，建立关于这些变量间相关性的理论。他们只用一个预测变量就能完成这些技巧。

“用一个变量预测另外一个变量”[Hack #13]中展示了大学招生录取时遇到的一个难题：他们想要录取未来学业出色的学生，所以他们尝试预测学生的未来表现。这条Hack所采用的方法是用一个变量（标准测试分数）去估计未来变量的表现（大学成绩）。

现实世界中，研究人员经常想要利用多个变量中所发现的信息（而不仅仅是一个变量）来预测或估计分数。如果追求更高的准确度，科学家们会尝试寻找多个看起来都和效标变量（你想要预测的变量）相关的变量。他们利用所有这些信息生成一个多元回归方程。

2.4.1　选择预测变量

在深入探讨本条Hack前，你或许应当阅读或者重温“用一个变量预测另外一个变量”[Hack #13]，只是为了回顾一下手头的问题以及回归法是如何解决该问题的。下面是我们在[Hack #13]中建立的、使用ACT分数作为单一预测变量的方程式，用以估计未来大学录取情况：

预测的GPA=-0.24+(ACT分数×0.16)

这个单一预测变量生成了一个回归方程，结果ACT与GPA相关度为0.55。非常好，非常准确，但它还可以更好。

想象一下，假设该大学的管理者觉得自己刚建立的回归线或回归方程所得结果还不够准确，想要做得更好。如果他能找到更多的和大学成绩相关的变量，就能获得一个更准确的结果。不妨假设我们的业余统计学家发现了另外两个和大学表现相关的预测变量：

态度度量
论文质量

态度调研分数可能是由大学收集的（分值范围为20~100分），人们发现它与学生未来的GPA具有某种相关。此外，个人论文得分（分值范围为1~5分）也可能和大学GPA相关，或许能够包含在多元回归方程里。

2.4.2　建立多元回归方程

我们先大体看看回归方程的抽象形式，然后再将这一工具应用于手头的任务。以下是仅用一个预测变量的基本回归方程：

效标变量=常量+(预测变量×权重)

如果你想利用更多的信息，可以扩展这个方程，使其包含更多的预测变量。下面的回归方程包含三个预测变量，但你还能扩展该方程，将更多的变量纳入其中。

效标变量 = 常量+

(预测变量1×权重1) +

(预测变量2×权重2) +

(预测变量3×权重3) +

每个预测变量都有其对应的权重，其大小是通过基于预测变量和效标变量相关的统计学公式确定的。具体计算过程有些复杂，在此就不予展示了——小意思，不用谢我。在现实中构建回归方程时，人们几乎总是用计算机来生成多元回归方程。

本书中的许多运算都是运用统计软件SPSS完成的：我把数据（通常是虚拟的）输入SPSS数据文件中，从而得出结果。微软的Excel也一个进行简单统计分析的便利工具。

使用我们能找到的包含三个与效标变量相关的预测变量（各预测变量之间也存在某些相关）的实际数据，我们可以生成一个回归方程式，其值如下：

预测GPA = 3.01+

(ACT分数×0.02) +

(态度分×0.007)+

(论文分×0.025)

我在我的电脑上使用这些想象的数据计算出上述权重。总体上，该方程可以很好地预测大学GPA，在观测的GPA分值和预测的GPA分值间找到了0.80的相关，大大高于我们使用单一预测变量产生的0.55相关。

当我们在模型（对一组变量以及变量如何相关的描述）中加入另外两个预测变量，即态度测量和论文分数，ACT的权重即随之发生改变。这是因为对每个变量都用部分相关替代了一对一的相关。此外，常量也变了。2.4.2节会对此加以讨论。

2.4.3　作出预测并理解相关

为了估计某个学生未来在大学期间的学业表现，校方管理人员把该生在每个预测变量上的分数输入回归方程，然后将每个变量分数乘以其对应的权重再加上常量，所得的值就是对该生未来学业表现的最佳估计。当然，这可能不完全正确（实际上这种可能性很大），但总比没有任何信息要好。

如果你不掌握任何信息，只能凭空估计一个学生在大学里的学业表现，你应该估计他的分数相当于平均GPA分数，不管你们学校的平均分是多少。

假如你不仅想要预测未来，还想透彻理解预测变量和效标变量之间的关系，那又如何？你的目的可能是想建立一个更有效的公式，其中无须包含众多无用的变量；也可能是想建立一种用于理解这个世界的理论——你这个疯狂的科学家！问题在于，你很难做到仅看权重就知道每个预测变量的独立贡献。

在多元回归方程里，每个变量的权重是和每个变量实际的分数区间范围成比例的。这样就很难通过对比各个预测变量来判断哪个在预测效标变量时提供的信息最多。对比这些原始的权重可能会产生误导，因为一个变量的权重较小，可能只是因为它的度量尺度较大。

例如，我们来对比ACT分数的权重和态度分数的权重：ACT分数的权重是0.02，比态度的权重0.007要大，但不要误以为ACT分数在预测GPA时比态度分数更重要。记住，GPA分数范围是1.0到4.0左右，而态度分数范围是20分到100分。与较大的ACT分数权重相较而言，较小的态度权重却造成效标变量产生更大的变动。

多元回归分析的计算机程序结果总是显示为表2-4那样格式的信息。

表2-4：多元回归结果

效标	非标准权重	标准权重
常量	3.01	——
ACT分数	0.02	0.321
态度分数	0.007	0.603
论文分数	0.025	0.156

在确认关键预测变量和对比每个预测变量在估计效标变量的独特贡献时，表2-4的第三列比“非标准权重”列的值更有用。

标准权重就是原始数据转换成Z分数[Hack #26]后得到的权重，Z分数是用标准差来表示每个原始数据和平均数的距离。

标准权重将所有预测变量纳入了同样的度量尺度。这样一来，可以公平地对各个预测变量对效标变量的相对重叠部分加以对比和理解。比如，运用这些数据，或许可以适当地说，态度对大学GPA的解释量是ACT表现解释量的两倍，因为态度的标准权重是0.603，大约是ACT分数权重（0.321）的两倍。

2.4.4　生效原理

多元线性回归在预测结果时表现得比简单线性回归要好，是因为多元回归使用了一点额外的信息，来计算每个预测变量的实际权重。多元回归知道每个变量和其他变量之间的相关，并用这种相关去生成更准确的权重。

这点复杂性是有必要的，因为如果预测变量之间存在相关，它们就会共享一些信息。如果它们互相相关，那它们就不是真正的独立预测源。为了使得回归方程尽可能准确，统计学方法移除了方程中每个变量互相共享的信息。这样就产生了从不同角度对效标的独立预测变量，生成了尽可能准确的预测。

想象两个预测变量，二者间呈完美相关，相关系数是1.00。在同一个回归方程里使用这两个变量，并不会比只用一个（不管是哪个）要准确。引申可知，两个预测变量间的任何重叠（比如，两个预测变量间任何大于或小于0.00的相关）都是冗余信息。

图2-3说明了使用多个独立信息来源去估计一个效标分数的情形。

图2-3：多元回归中的多个预测变量

在多元回归中，用来决定每个预测变量权重的相关信息，不是预测变量和效标变量的一对一相关，而是当所有预测变量之间的重叠被移除后，预测变量和效标变量之间的相关。

这个过程产生了有点不同于实际测量变量的预测变量。通过统计学上的移除（或是控制）变量间的共享信息，预测变量在概念上变得不同于以往。正如图2-3所示，现在它们是有着不同“形状”的独立变量。这些改变后的变量和效标变量的相关被用来生成权重。

当所有冗余信息从预测变量上被统计移除后，预测变量和效标变量之间的相关被称作部分相关。部分相关是在预测变量和其他变量不相关的情况下，每个预测变量和效标变量之间一对一的相关。

2.4.5　其他生效领域

在现实世界中，多元回归每天实实在在地被人们使用着，其原因有二。首先，多元回归使得预测方程的构建成为可能，所以人们能够用已有的群组分数去估计另一个不在眼前的变量的分数（因为它尚未发生或是由于某些原因无法轻易测量）。这就是多元回归这种统计工具在应用科学领域解决问题的原理。

多元回归同样能检验一组变量对其他变量的独立贡献。它让我们看到哪里有变量间的信息重叠，并建立理论去理解或解释这种重叠。这是多元回归这种统计工具在基础科学领域解决问题的原理。

2.4 用多个变量预测单个变量

2.4　用多个变量预测单个变量