2.6　识别非预期相关

2.6　识别非预期相关

如果你想弄清自己观测到的两变量之间的相关是否为真，有很多统计方法可以选用。但是当你对这些变量使用类别测量法进行准确性不太高的测量时，就会出现一个问题。其解决办法是采用两因素卡方检验，这种方法除了其他一些用处以外，还可用来对初识者的特征做暂无事实根据的假设。

在“识别非预期结果”[Hack #15]中，我们采用了单因素卡方检验，依据一天中不同时段犯罪数是否相同而制定警察巡逻班次。这种方法对于解决如下情况的分析问题大有效力。

数据属于分类测量的范畴（如性别、党派、种族等）。
你想要判断某些特定类别中分数的频次是否高于其随机出现的频次。

当你对两类变量是否互相关联感到好奇时，你会遇到另外一个常见的分析性问题。类别变量间的相关能够用方便的两因素卡方检验来考察。

如果两个变量属于区间测量的范畴（在一个连续体上可能存在多个分数），相关系数[Hack #11]是最好的工具，但这种工具在类别测量方面表现并不出色。

我们一直在对以上类型的变量间相关做出假设。我们给人划分类型的很多常见刻板印象其实就是无形中对这些关系做出假设。下面这些你可能抱有的假设，就隐含着类别变量之间的相关性。

教授们总是心不在焉的。
程序员玩《龙与地下城》（Dungeons and Dragons）游戏。
本书作者是喜欢收集漫画的成年人。
教授们总是心不在焉的。

如果你在聚会上碰到一名程序员，并且对程序员群体持有上述刻板印象，你可能会假定他熟悉20面骰子游戏。但是，如果你错了，就会使双方的交谈陷入尴尬。所以最好还是先了解你所着眼的类别变量之间是否真的存在上述相关。计算两因素卡方能解决这个问题，并且能够证实或质疑这些关于人的假设。

单因素卡方回顾

卡方检验是在如下框架下使用的：研究者事先抱有某种预期，想看看观测数据是否与这种预期相符。统计学家了解观测频次较之期望频次可能出现的常态波动的大小。掌握了这个信息，他们就能判断观测值与预期值之间出现任何偏离的可能性究竟是出于偶然，还是缘自其他因素的影响。这些分析的原始数据总是某个变量类别中的人数（或者频次）。

以下是计算卡方的通用公式：

Σ表示对它后面的数求和。卡方值越大，结果随机出现的可能性就越小。

2.6.1　回答相关性问题

单因素卡方分析的是单一类别变量，而两因素卡方分析的是两个类别变量之间的相关。二者的内在原理是一样的：将每一类或组合类的期望频次与实际频次加以对比。如果差异之和达到了一个很大的数，那么就有其他因素作用的影响。

这儿有一个我们可能很想找到答案的类别相关问题。它和其他有待探究的刻板印象问题大同小异。

女性更倾向于加入民主党还是共和党？

你心里可能对此已经抱有某种假定，但你要如何去检验这样一个假定的准确性呢？

执行预备分析

首先来看表2-6的例子，其中显示了一组单一分类变量的频次数据。这些数据是虚构的，但和公开发表的研究结果一致，通常发现共和党人士大多是男性，而女性倾向于认同民主党。

表2-6：共和党假设样本

男性	女性
45	30

在这个75个随机抽取的共和党人样本中，45名是男性，30名是女性。即60%为男性，40%为女性。我们能否这么下结论，认为共和党的成员通常是男性多于女性？否则的话，我们就会预期样本中男女各占50%。

单因素卡方检验能知道共和党员中男性是否多于女性，但那不是本条Hack要探讨的问题。

然而这不是我们的研究问题。

计算两因素卡方

我们开头的问题只包括了共和党，所以在第一次分析中，党派看起来像是一个变量，但它其实只是对总体的一个描述；它没发生任何变化。但是我们可以添加另一个类别——比如说民主党——再招募75个被试，这样我们马上就有了两个变量的数据。假设这些数据如表2-7所示。

表2-7：选民的假设样本

党派	男性	女性	总计
共和党	45	30	75
民主党	34	41	75
总计	79	71	150

这里我们有两个分类变量：所属党派和性别。我们可以继续使用单因素分析，分别分析这两行数据。但是，一个更有代表性的问题或许是：“党派和性别之间存在相关吗？”

问：“党派和性别之间存在相关吗？”

答：这让我想起了大一的时候。

（哈！这种笑话我这儿多的是！本周内我都会在这儿。大家晚安！1 )

120世纪美国著名谐星杰米·杜兰特（Jimmy Durante）的一句口头禅。——译者注

为了计算期望频次和观测频次之间差异性的标准测量，我们使用和单因素卡方分析一样的公式。正如“识别非预期结果”[Hack #15]中所示，我们首先要加总每个单元格（表上的每一格）内的预期和观测频次之差。

我们对两因素卡方做同样的运算。每个单元格的期望频次等于单元格所在行的人数乘以单元格所在列的人数，然后除以样本总数。使用表2-7的数据，对期望频次的计算展示在表2-8里。

表2-8：两因素卡方分析期望频次

党派	男性	女性
共和党	（75×79）/150=39.5	(75×71)/150=35.5
民主党	（75×79）/150=39.5	(75×71)/150=35.5

所以，两因素卡方的计算如下所示：

判断卡方值是否足够大

统计学家知道2×2表格（就像我们刚才计算的卡方一样）的卡方临界值是3.84。在随机情况下，卡方值大于3.84的几率大约为5%或更少[Hack #15]。

因为我们的卡方值是3.24，小于临界值3.84，于是我们知道这样一个波动随机发生的概率高于5%。这里我们还不能宣称达到统计显著性，因此我们必须下结论说，虽然我们的样本似乎显示所属党派和性别这两个类别变量之间存在某种相关，但这可能是因为取样误差所致。在我们抽样的总体中，可能不存在任何相关。

2.6.2　生效原理

两因素卡方通过观察差异性来回答此类相关性问题。这可能看起来有违直觉，因为大多数统计是通过寻找不同来展示差异，而不是展示相似性。但其中的思维逻辑是：

如果党派和性别之间不存在相关，那么每个性别群组中共和党人和民主党人应当各占一半；
同样，如果党派和性别之间不存在相关，那么每个党派内部的男女成员也应当各占一半；
这种双向的等同分布应为随机形成。相对于上述预期的较大偏离表明有外界因素作用的影响。

本项Hack可用于检验我们持有的刻板印象是否正确。当然，在超乎现实世界的科学领域，研究人员还使用这个方法去探索形形色色的复杂问题。

两因素卡方分析有时候称作列联表分析，当你手上有两个类别变量并且想知道一个变量对另一个变量是否有某种依赖时候，这种方法非常有用。本例中的变量只有两个类别，但我们可以以此类推，对多个类别的变量进行分析。它的技术要求会有点复杂，但步骤是一样的。

2.6.3　参阅

“识别非预期结果”[Hack #15]

2.6 识别非预期相关