2.2　相关图表

2.2　相关图表

不论何时，只要发现并且定义了两个变量间的关系，我们就能用其中一个变量去预测另一个变量。画一条回归线，你就可以描绘出相关并做出预测。

假设你刚被任命为区域副经理，负责堪萨斯东北部太阳花湖滨黄金带面积为100 00平方英尺店面的冰淇淋销售。恭喜你！你肩负很多责任，需要做出很多关于如何最大化利润的战略决策。你面临的一个两难问题是：是否需要开门营业。店铺一开门必定要消耗金钱和资源，如果你那天没卖出多少冰淇淋甜筒，可能都不值得打开你那油漆鲜艳的胶合板售货窗口。

要是有某种方法，能神奇地知道任意给定日子的经营状况，那就好了。作为一名统计学爱好者，你认为一定有一种科学的方法，无须通过实际开张、测试当天销售情况，就能估测一天能卖出多少甜筒。你运气不错。的确有一种办法能通过其他信息来估计某个变量（如冰淇淋销量）的分数或值。

关键是你所利用的其他信息必须来自和被关注变量有关联的变量。通过将已知天数里两个变量之间的关系画成一条线，你可以把这条线看作延伸到未来（或是过去），从而预测未知时间点会发生什么。这样的图表工具叫做回归线。

2.2.1　勾画未来

善于观察的人总能在变量间发现相关性[Hack #11]。然而，知道存在相关性的好处不仅限于描述性统计。

想象你有太阳花湖畔活动的相关数据。除了其他因素，你已经收集了前任区域副经理任期内的冰淇淋销量（用冰淇淋甜筒数表示）和每天的最高气温（用华氏温度来表示）。代表温度和对冰淇淋购买欲之间相关性的相关系数应该是正向的并且非常大。也就是说，当温度升高时，销量很可能随之增加。

直觉上来说，依据过往经验，你看着温度计，就能大概知道那天冰淇淋摊点的忙碌程度。只要你知道两个变量之间存在正向或负向的关系，可以合理地说，知道一个变量的分数你就能大致了解另外一个变量的分数。

如果你发现两个变量之间存在类似的关系，便可合理假定这两个变量间的关系是线性的。换句话说，如果你画一张图，将一个变量的所有可能值都放在X轴上（沿着底部的水平线），把另一个变量的所有可能值都放在Y轴上（沿着边的垂直线），然后画出每一对分数在象限中的对应点，结果是那些点基本呈直线分布。

2.2.2　连接这些点

图2-1展示了一种用图形来表示湖滨气温和冰淇淋销量间关系的方法。

图2-1：销量和温度的线性关系

图A基于你收集到的历史信息，用点来体现两个变量的值。例如，最低点意味着当温度为华氏70度时，卖出了50个冰淇淋甜筒。在90度，卖出了60个冰淇淋甜筒。我们看到一个非常明显的模式，二者间的关系在图上看起来像一条直线。温度每升高10华氏度，甜筒销量就增加5个。温度每升高1华氏度，甜筒销量便相应增加1/2个。图B基于这个规则画了一条线。该线将每个点贯穿起来。

在图2-1中，分析图B能让我们初步认识到回归方程的强大功用。这条线包含了未进行数据取样的区域。例如，我们没有温度是100华氏度的数据。但是，有了回归方程，我们便可估计可能的销量。如果我们在100度标记处找到直线上对应的点，那这个点看起来和65个甜筒的标记相匹配。使用这个回归方程，可以估计在华氏100度的天气里，会卖出65个冰淇淋甜筒。我们同样可以估计较低温度下的情况。图2-1表明，在华氏60度的天气里，会卖出45个甜筒。

2.2.3　玩“如果-怎样”游戏

温度和甜筒销量间的关系可以用数学表达式来表示。以下给出的是图2-1中图A和图B的数据。

温度	冰淇淋甜筒销量
70	50
80	55
90	60

那么，让我们看看如何用数字建立描述其相关性的方程。毕竟，回归线是统计工具。注意，如果以70度作为起始点，其对应销量为50个甜筒。当我们将70代入公式，应得到50这个结果。同样，代入80应得到55，代入90应得到60。

我用这些数值尝试不同的可能性，试图摸索出输入值与结果值之间的适当数学关系式。我注意到，“冰淇淋销量”的值总是小于温度变量的值，所以我想要一个能够减小温度的方程。线性方程需要一个常量（在每个方程中都使用的某个值）以便产生一条直线，所以我的方程里也需要有个常量。不用反复试验，你也可以把这些数输入到统计程序，比如SPSS，或是电子表格（如excel表）中，生成正确的项。我发现下面这个公式效果不错：

甜筒销量=15+(温度×0.50)

从代数上讲，如果你从常量开始，加上一些仅通过基本算术运算（比如乘法）改变的标准量，就能定义出一条表现在图上的直线。

“如果-怎样”是个运用回归线来玩的有趣游戏。在一端输入一个值，就会在另一端得到一个估计值；甚至一些不切实际的情形也能获得答案。在线上放一些疯狂的数值，比如200度，你依然会得到甜筒销量的估计值：115个！

针对这种关系的回归方程，描述的是一条能直观体现该关系的直线。现实中，数据之间的关系很少像我们这个例子中那么清晰。（我们这个虚拟小数据集的相关系数是完美的1.0。）

在统计学里，回归方程使用两组变量分数的相关系数、平均数以及标准差，不考虑数据集中相关的强度。“用一个变量预测另外一个”[Hack #13]说的就是建立回归方程的统计学方法。

2.2.4　生效原理

这类回归估计的准确性有赖于几个重要因素。首先，变量间的相关必须相当大。微小相关产生的点阵式图形根本无法形成直线，通过这些点描绘出的回归线丢失了很多点，并不准确。可惜，在社会科学领域中，我们难以找到太多真正的强相关，所以回归预测往往会产生一定数量的误差。在统计学里，误差是必然存在的。

其次，相关必须至少是线性的。在我们所举的冰淇淋甜筒的例子里，如果在回归线上变量关系发生了质的改变，那么这条回归线就会错失一些数据。幸好，自然界里的相关大多是线性或者接近线性的。

2.2.5　不适用领域

实际的相关不一定是纯粹线性的，但只要基本上属于线性，那么回归分析就相当有效。比如，在我们关于冰淇淋的例子当中，可能温度每上升一度，销量就有所增加。如果在量表的每一处增量都相同，那我们将会看到一种线性关系。但是，在某一温度值上销量骤增也是有可能的。或许，一旦湖畔的气温超过华氏90度，人们就会蜂拥去买甜筒冰淇淋，让自己凉快凉快。

图2-2中的图C和图D显示了相关并非纯线性时，将是怎样的情况。

图2-2：非线性相关

按照线性回归的要求，回归方程总是生成一条直线，在这种情况下，图中两个点正好落在直线上，但还有一个点不在直线上。通过画相关图来解释数据，这条线完成得很好，但因为相关不是线性的，所以回归方程产生了一些误差。

2.2 相关图表