2.1 发现相关
揭示世间各种无形的联系,不过是记录观测值并计算出那些奇妙而神秘的相关系数而已。
关于人们为何产生如此这般的感受、做出如此这般的事情,你可能会做出形形色色的假设。统计研究人员把这些假设称作变量间相关性的假设。
不管科学界怎么称呼它,你在现实生活中很可能就是这么做的。你可能会对态度和行为、态度和态度或是行为和行为之间的关联进行估计。你可能试图理解周围世界中的人,因而随便做出假设;或者你是一名市场营销专家,需要借此来理解顾客;又或者你是一名心理学研究生,正为完成一项针对自尊和抑郁的相关性进行统计分析的课堂作业而伤脑筋。
在统计学里,这样的关系称作相关。描述关系大小的数字是相关系数。通过计算这个有用的值,你能够获得任何有关“关系”问题的答案(除了恋爱关系,那只能靠你自己了)。
2.1.1 检验关系假设
想象有这么一个研究:美国奶酪蛋糕零售协会(American Cheesecake Sellers Association)的一名研究人员做出假设,认为人们喜欢奶酪蛋糕是因为爱吃奶酪。也就是说,他猜测人们对奶酪的态度和对奶酪蛋糕的态度之间存在相关。如果他的假设最终被证明是对的,那么他将从美国奶酪爱好者协会(American Cheese Lovers Association)购买大量的邮寄地址,向这些人发送宣传册,介绍奶酪蛋糕的保健功效。如果他是对的,销售量将如火箭般蹿升!
为了检验自己的假设,他创建了两项调查研究。其中一项是让受访者表述对奶酪的感觉,另一项则询问他们对奶酪蛋糕的感觉。50分表示这个人喜欢奶酪(或奶酪蛋糕),0分表示这个人讨厌奶酪蛋糕(或奶酪)。表2-1显示了他上班途中在公交车上收集的5个人的数据。
表2-1:关于对待奶酪和奶酪蛋糕的态度之间相关性的数据
| 受访者 | 对奶酪的态度 | 对奶酪蛋糕的态度 |
|---|---|---|
| 拉里 | 50 | 36 |
| 莫伊 | 45 | 35 |
| 乔 | 30 | 22 |
| 塞夫 | 30 | 25 |
| 格劳乔 | 10 | 20 |
看看这些数据,两个变量间看起来是否存在相关?(看吧,我会给你30秒时间。)
我会说二者之间存在一种非常清晰的关系。在奶酪量表上得分高的人,同样在奶酪蛋糕量表上得分高。当然,这些人在两个量表上的得分并非完全相同,甚至分数高低顺序也不相同,但是相对来说,每个人在两张态度量表上相对于其他人所处的位置大致相同。那位奶酪蛋糕零售协会的研究人员为他的假设找到了支持。
2.1.2 计算相关系数
只对样本中的两列数据扫上几眼,并不足以确知两件事之间是否存在相关。在这个例子中,市场营销专家想用一个数字更加准确地描述所发现的关系。
相关系数考虑了我们在观察表2-1中两列数字时使用的所有信息,并判断其间是否存在相关。相关系数的计算公式包括以下几个步骤。
1.查看一列中的每个分数。
2.查看每个分数和本列平均数的距离。
3.查看另一列中与其对应的分数与平均值的距离。
4.将这一对距离数字相乘。 5.计算乘积结果的平均数。
如果这是本统计教科书,我就有必要展示略为复杂的相关系数计算公式。称它“略为复杂的”算是轻描淡写。坦白讲,那些公式非常可怕。相信我,为了你好,我不会把这些可怕的公式展示给你看,而是展示一个看起来令人愉快的、友好的公式(而且同样有效):

其中Z表示Z分数,是一个分数离平均数的距离。随后,将这些距离除以分布的标准差。因此,Zx表示第一列的所有Z分数,Zy表示第二列的所有Z分数。ZxZy表示将它们相乘。Σ符号表示相加。所以,此方程的意思是把所有配对的Z分数相乘,并把这些乘积相加,然后除以配对数(N)减1。
平均数是一组分数的算术平均。其计算方法是将所有数字相加并除以分数的总数。一组数的标准差是各个分数距平均数的平均距离。
在使用我们的相关公式计算Z分数前,我需要知道每列数据的平均数和标准差。计算这些关键值的公式在“仅用两个数字描述世界”[Hack #2]中已有介绍。以下是本例中两个变量的平均数和标准差。
- 对奶酪的态度
平均数=33;标准差=15.65
- 对奶酪蛋糕的态度
平均数=27.6;标准差=7.44
表2-2给出了一些针对奶酪态度数据所做的计算。
表2-2:对于奶酪和奶酪蛋糕的态度之间相关性的计算
| 受访者 | 对奶酪的态度 | 对奶酪蛋糕的态度 | 奶酪的Z分数 | 奶酪蛋糕的Z分数 | Z分数的乘积 |
|---|---|---|---|---|---|
| 拉里 | 50 | 36 | 1.09 | 1.13 | 1.23 |
| 莫伊 | 45 | 35 | 0.77 | 0.99 | 0.76 |
| 乔 | 30 | 22 | -0.19 | -0.75 | 0.14 |
| 塞夫 | 30 | 25 | -0.19 | -0.35 | 0.07 |
| 格劳乔 | 10 | 20 | -1.47 | -1.02 | 1.50 |
相关系数为0.93,非常接近于1。1是最强的正相关,所以人们对奶酪-奶酪蛋糕的态度之间存在非常强的相关。
2.1.3 解释相关系数
有点神奇的是,相关公式的计算产生一个范围在-1.00~+1.00的数,用以表明两个变量间的关系强度。正号(+)表示正向相关,即随着其中一个值的增加,另外一个值也增加。负号(-)表示反向相关,即随着其中一个值的增加,另外一个值减少。需要指出的一个重点是:相关系数提供的是两个变量间线性关系强度的标准度量[Hack #12]。
相关的方向(不管是正的还是负的)是标尺方向的虚拟结果,人们选取这个标尺来度量变量。换句话说,强相关也可以是负的。就拿高尔夫球技和高尔夫平均得分之间相关性的度量来说,球技越高,分数越低,但你依然可以预见二者之间存在一个强相关。
2.1.4 统计显著性和相关
我们的市场营销专家可能同样对“样本的相关性是否大到有可能抽取自相关性大于零的总体”这个问题感兴趣。换句话说,我们在样本中发现的相关是否足够大,以至于它肯定来自于一个变量间至少存在某种关系的总体?
相比从小样本(比如前述的5位公交乘客)中得到的相关,本例中的市场研究人员更相信由大样本中获得的相关。如果他将这个相关呈报给老板,但结论对大多数人并不适用,那么他说不定要被炒鱿鱼,只能靠开小型客货车卖奶酪蛋糕来谋生了。
表2-3展示了样本中相关系数必须达到多大,统计学家才能够确定其代表的总体中存在大于零的相关。
表2-3:可能并非偶然出现的相关
| 样本量 | 可被视为统计相关的最小相关 |
|---|---|
| 5 | 0.88 |
| 10 | 0.63 |
| 15 | 0.51 |
| 20 | 0.44 |
| 25 | 0.40 |
| 30 | 0.38 |
| 60 | 0.26 |
| 100 | 0.20 |
就我们的5人样本而言,任何大于或等于0.88的相关系数会被认为统计学显著(意思是“相关性大到很可能存在于样本所代表的总体中”)。
2.1.5 其他生效领域
只要满足某些条件,你就能够计算作为两个变量间关系强度度量的相关系数。
- 你一定能够以这样一种方式测量变量:数字有实际的意义且能够代表一些基本的连续概念。连续变量的例子有态度、情感、知识、技能,那些你能够计数的事物,比如因为喜爱奶酪蛋糕导致体重增加的磅数。(如果你测量的事物不是连续的,就像存在不同类别的情况,比如性别或党派,你依然能够计算相关,只不过不用这里展示的公式。)
- 变量必须真正存在差异。如果每个人对奶酪的感觉都一样,你就不能计算对奶酪(也可以是巧克力或其他什么)的态度相关。数学需要差异性。
- 只有在样本是从总体中随机抽取的情况下,达到统计显著所需的最小相关系数大小(如表2-3所示)才是精确的。研究人员(比如我们的奶酪蛋糕营销人员)必须判断他们的样本是否像随机样本那样具有代表性。
2.1.6 关于相关的严重警告
我们很容易倾向于将相关证据作为因果关系的证据。当然,两件事情可以有关联,却不属于因果关系,造成这种情形的原因可能是多种多样的。
比如说,在对奶酪和奶酪蛋糕的态度之间的这种强相关之下,你也许会得出结论说:一个人对奶酪的喜爱导致他喜欢奶酪蛋糕,因为奶酪蛋糕里有奶酪。但我们也可进行非因果解释:喜爱奶酪的人之所以同时喜欢奶酪蛋糕,也许是因为他们喜欢各种软滑可口的食物。
