2.5　识别非预期结果

2.5　识别非预期结果

你怎么知道你的观测值是否正确，或者是否存在偏差？你怎么知道什么时候某件事发生的概率可能比原本应该发生的概率大或小？你可以凭借灵活的单因素方差检验来确切地获知以上问题的答案。

在科学领域，最古老的观测研究包括清点人员、动物和物件的数目。

这条船上有多少人？
翅膀上带绿点的蝴蝶比例是多少？

随着推断统计走向成熟，问题变得更加具体。

1812年伦敦出生的男孩和女孩数量相同吗？
一天中不同时段发生的罪案数量相同吗？

这些情境中的研究问题是“他们/它们的数量相同吗”。（或者至少是，他们/它们的数量是否足够接近以至于任何波动皆可能出于偶然？）不等同分布的意思就是有事情在发生。它无法回答实际在发生什么的问题。但这是一个开端，一个很好的初始问题。

你是否注意到某种异常情况似乎正在发生，但不确定那是否只是你的想象？在本地社区商场购物的嬉皮士是否异常增多，超出了偶然几率？如果答案是肯定的，而且你很想遇见嬉皮士，那你就该在商场附近多转转。对于商家和服务业人士来说，确认哪里有最大的需求非常重要。观测数据能够用来解决这个问题。甚至只在日常生活中，我们都有自己的基于观察的信念（有可能有偏差）。我已经注意到社区商店里有很多嬉皮士，但这或许是因为我当时特别留意了嬉皮士。那个地方的嬉皮士确实比平常多吗？比普通人更多？

这类问题可以借助一种统计方法来回答，这种方法适用于查看多个类别中的每一类所包含的“事物”数量较之正常状态下随机发现的数量是否有所不同。这方法叫做单因素卡方检验。

这种统计分析之所以称作“卡方检验”，是因为它用符号C（即希腊字母Х，读作/kai/）来表示生成的临界值。计算中所需的值都是平方值，所以我们将其统称为卡方（英文为chi-square或chi-squared）。

2.5.1　判断是否有异常情况

假设你负责制定你所在城镇的警察巡逻时间表。问题在于，你不知道是否该对每一班安排相同数量的警员，或许特定班次需要应对的罪案数量更多？如果某个班次可能会忙些，那你应该在这个时段分配更多的警员。当然，在该时段分配更多警员，加强巡视，也能起到抑制犯罪的效果。

下面的例子以虚构的数据表现了三个时段内犯罪事件发生的情况。假设这些数据取自30天的时间，你想要利用它们为来年做计划。表内数字代表三个时段中每一时段发生的犯罪数量。

午夜12点至早晨8点	早晨8点至下午4点	下午4点至午夜12点	总　　计
120	90	90	300

无疑，看起来更多的犯罪发生在深夜。仅通过观察，我们就可能得出结论说，深夜里的罪案更多。但是，那也许仅在我们的样本中如此，而在总体数据中并不存在这样的差异。

2.5.2　计算卡方

我们能计算这个数据的卡方值。如果卡方值的确很大，那就说明深夜时段的罪案数量（120次）异乎寻常地大于另外两个时段的罪案数量。多大才算“的确很大”，这是个很重要的问题，我们将在本节稍后部分加以讨论。

可以按以下脉络来理解我们即将做的分析：如果24小时内总共发生了300次犯罪，那么我们可以预期一天内三个相等时间段内各有33.3%的犯罪，也就是说每个时段有100次犯罪发生。如果任意一个时段内的罪案数量超过或少于100次，就意味着有异常情况。也许时间段对犯罪的发生有影响。当然，也可能有些偶然的波动，但期望频次和实际频次的差异越大，这种差异仅仅是出于偶然的可能性就越小。

以下是卡方计算公式：

Σ表示求和或是把它后面的各项相加。

让我们计算这个数据的卡方。每个类别的观测频次是给定的。每个单元的期望频次是300除以类别数量3，即100：

这个数据的卡方值是6。很好。现在该做什么？6是大是小还是其他？卡方值大小为6是偶然的吗？

2.5.3　判断卡方值是否“的确大”

就像相关系数[Hack #11]、t检验[Hack #17]、比例等其他一切统计方法一样，统计学家已经标定了卡方的分布。换句话说，我们知道不同大小的卡方偶然出现的可能性。发现特别巨大的卡方值的可能性，取决于类别的数量。

表2-5为一张理论上超级庞大的表格的一部分，表示为了有95%把握（显著水平=0.05）必须达到的卡方值。如果卡方值没那么大，说明只是样本中的偶然波动导致的。我们知道这些临界值有5%或更小的几率出现，因为卡方值就像有序的统计世界中几乎所有其他事物一样，有着一个已知的分布，即一个特定值出现可能性的已知集合。像正态曲线一样，卡方分布也具有明确的定义[Hack #23]。

表2-5：显著性为0.05的卡方临界值

两个类别	三个类别	四个类别	五个类别
3.84	5.99	7.82	9.49

我们的卡方值是6，大于三个类别对应的临界值（5.99）。这意味着存在某些异常的情况，所以我会强调它。虽然这里是以犯罪发生率问题作为一个具体事例，但我使用的描述方式通用于所有在0.05显著水平的统计发现。

如果在总体中，一天中三个时段的犯罪数量并无差异，你也可能随机抽取到有差异的样本，产生的卡方值为6或更大，但这种情形发生的概率低于5%。

那么，看来我们可以合理地得出结论，总体中一天内不同时段的犯罪频次存在差异。因为这些差异是“真实的”，所以有理由在此基础上安排全年的警察巡逻计划。

2.5.4　生效原理

卡方分析的数据表示方式能使每类事物的观测数量和每类事物的期望数量相比较。“每类事物的期望数量”总是被定义为一个相等的数。如果没有异常情况（比如，类别之间没有差异），那么可以预期各个类别中事物的数量相等。

卡方适用于类别数据。实质上，每个类别的期望值和观测值之间的差异都会被计算。将差异和期望频次加以对比（作为一种标准化所有差异的方法），然后把所有的比例数字相加。相加得到的结果是它偶然出现的可能性。数字越大，用偶然性单独解释事情的可能性越低。存在一个已知的分布（每个可能卡方值对应的概率），通过表格（或计算机）将特定的概率派给每个卡方值。

如果类别数大于或等于2，研究人员又想知道这些类别中的实际分布情况是否与偶然出现的相同，那么卡方就是一个合适的检验方法。实际检出值是研究者预期发现和实际发生之间的差异。

卡方检验的使用框架是：研究者怀有某种预期，以此方法来检验观测数据是否与该预期相符。这是一个简单的模型检验形式。研究者有一个信念系统，以某些模型或假说（认为现实世界的运转方式应当如何）的形式存在。随后他就观察世界（收集数据）并将他的观测结果和模型加以对比。如果数据符合模型，便对假设形成支持。因此，卡方检验被视为一种拟合优度统计检验法。它回答的是数据在多大程度上与模型相符的问题。

有些统计教科书把单因素卡方检验称作单样本卡方检验，所以不要把它们搞混了。但是，难道你还有必要去读别的统计书吗？

统计学家了解观测频次较之期望频次可能出现的常态波动的大小。掌握了这个信息，他们就能计算观测值与预期值之间出现任何偏离的可能性究竟是出于偶然还是缘自其他因素的影响。

2.5.5　其他生效领域

卡方检验作为一种统计学方法虽然简单而古老（大约80年历史——在统计学领域已经算是“古老”了），但它对于很多统计问题的解决都非常有用，从测量标准较低的到非常高级的统计方法都是如此，惊讶吧！因为它是一种相当直接的模型检验（或“拟合优度检验”）方法，所以卡方检验被用作复杂的相关分析以及测量诊断的一部分。

卡方分析用来检验复杂的理论模型是否真的与现实世界的数据相符，这些理论模型是变量间相关性的详细说明。如果现实数据距这些模型的预期偏离太多，那么我们可以下结论说模型为弱。卡方显著性是显示“过多”偏离的判据。

比如，测试研发人员若关注测项偏差——某一测项对于一个可识别群组（如种族、性别等）的作用可能不同于对另一群组的作用，他们会检查答案选项的模式是否符合某种预期，而不考虑是哪组产生的数据。卡方检验分析是对预期和实际测试表现加以对比。

2.5.6　参阅

“识别非预期相关”[Hack #16]。

2.5 识别非预期结果