2.7　比较两组

2.7　比较两组

哪个更好？哪个更多？人与人之间真的有差异吗？诸如此类的定量问题是我们礼节性谈话内容当中的重头戏。如果你想要拿出真实的证据来支持自己关于哪个最好、哪个最多、哪个最少的观点，可以使用一种叫做“t检验”的统计工具来达到目的。

我叔叔弗兰克的脑子里总是充满这样那样的观点。比如，他认为绿色的M&M巧克力豆比蓝色的味道好，他认为女性从来不会收到超速罚单，他认为《脱线家族》（Brady Bunch）中的孩子们唱得比《鹧鸪家庭》（Partridge Family）中的更好听。还有，他认为格子花呢又回归潮流了。他一天到晚接二连三地抛出那些不成熟的观点。虽然在上述四个问题上我都持不同意见（尤其是说到格子花呢回归潮流这一点，因为它从来都没有退出时尚），但我只能直接说明我的观点来反驳他，除此之外拿不出别的证据。

要是有某种科学的方式来证明我叔叔弗兰克是对还是错，那该有多好！——你无疑能够看出我这句话是在玩弄修辞手法。事实上，可用来检验此类假设的统计方法多得不可胜数。其中一个最简单的工具，其设计目的就是为了检验最简单的声明。如果你想判断两个组别之间是否存在差别，那么独立t检验就是最好的解决办法。

2.7.1　证明弗兰克叔叔是错的（或对的）

为了应用t检验来实际考察弗兰克叔叔的一个理论，我们必须计算出一个t值。假设我打算真正挑战一下弗兰克叔叔，并且收集了一些数据来检验他的观点是否站得住脚。

弗兰克叔叔认为男性收到超速罚单的频次要高于女性。为了检验这个假定，不妨想象我从他的邻居中，随机选取[Hack #19]了两组开车者，每组15人。其中一组是女性，另外一组是男性。假设我问了他们一些问题。结果发现在过去的5年间，男性组平均收到1.71次超速罚单，方差大小为0.71；女性组平均收到1.35次超速罚单，方差大小为0.25。

方差是给定一组数中，总的变异量大小。它是通过找出群组中每个分数和平均分数的距离而计算出来的。将这些距离进行平方并求算术平均数就能得到方差值。

下面是t值的计算方程式：

t值越大，在你样本群体中发现的任何差异性为随机出现的可能性越低。通常情况下，当t值大于2就足以下结论说，差异不仅存在于你的样本中，也存在于整个总体中。

这里给出的t值计算公式，在两组人数相同时效果最好。当两组样本量不等时，会采用一个类似的对变异信息求平均的公式。

对弗兰克叔叔的观点是否得到支持？为了确定这一点，我们的计算需要用到表2-9的数据。

表2-9：超速罚单t检验数据

	第1组（男性）	第2组（女性）
平均数	1.71	1.35
方差	0.71	0.25
样本量	15	15

如果我们把这些关键值代入前面的公式，就会得到：

于是得出计算结果：

在这种情况下，我们由0.36的平均差计算出t值大小为1.42。

2.7.2　解释t值

这个1.42大小的t值会是随机发生的吗？换句话说，如果总体中的实际差异为零，从这个总体中抽取的两个样本平均值会有那么大的差异吗？

之前我提到过，若要得出这个结论，通常需要t值为2或者更大。在这种标准下，我们会下结论说，没有证据显示男性的确比女性接到更多的超速罚单。当然，在我们的样本中是这样，如果我们测量所有人（全部总体），结果可能就不是这样。没有证据显示弗兰克叔叔是对的。虽然这并不等于说他是错的，但依然意味着他的这个论点站不住脚。

但是，统计学是讲究准确性的学科，所以让我们来进一步探究1.42这个值。t值具体要达到多大，我们才能下结论说弗兰克叔叔真的是正确的？

依照惯例，如果在某一t值水平上随机概率为5%（或更小），该t值即被视为足够大。幸运的是，从总体中随机抽得不同t值的几率，已经被辛勤的数学家们利用中心极限定理[Hack #2]计算出来了。统计显著性需要的实际t值大小，取决于两组样本的总和。表2-10提供了达到0.05统计显著水平需要满足或达到的t值。

表2-10：随机出现几率小于5%的t值

两组联合样本量	临界t值
4	4.30
20	2.10
30	2.05
60	2.00
100	1.99
∞（无穷大）	1.96

对于未包含在表2-10中的样本量，你可以通过估计表中两个t值之间的值，来得出你需要满足或达到的粗略的t值。同样，该表假定你想要在两个方向中的任一方向确定组间的差异性。它假定你想要知道其中任意一组的平均数是否大于另外一组的平均数。这就是统计学家所称的双尾检验，这通常是一种有趣的对比。

查阅表2-10，我们看到t值为1.42时，小于30个被试总数的临界值2.05。如果需要有把握地说我们观测到的样本差异不只是出于偶然，那我们需要看到一个大于2.05的t值。

2.7.3　生效原理

社会科学家一直在使用这种对比方法。实验设计和准实验设计总是设置两组人群，两组间被认为在这样或那样的方面存在差异。你可能着眼于共和党和民主党之间的差异，或是男孩和女孩之间的差异，或是想看看服用新药的群组中患感冒的人数是否比不服用任何药物的群组更少。

这样的设计会产生两组分数，它们的值总是存在差异，至少在使用的样本间存在差异。研究者（当需要证明弗兰克叔叔是错误的时候，我也算是一个研究者）更感兴趣的是，两组样本所代表的总体之间是否存在差异。

推断性统计的逻辑是：样本分数代表一个更大的总体的分数。如果样本在某个变量上存在差异，那这种差异也许能被反映在它们来自的总体中。还有另一种可能，这种差异也许是缘自取样误差。

t检验回答了这样一个问题：两样本间发现的任何差异究竟是真实的（即，它们很可能存在于样本来自的总体），还是缘自取样误差（即它们很可能只存在于样本中，总体中不存在）。如果样本间的差异太大以至于无法用偶然出现来解释，那么研究人员就能下结论说总体间存在真实的差异。

t检验公式使用了样本分数分布形状的信息。我们需要每组研究变量的平均分数，每组的方差，以及每组的样本量这几个信息。样本平均数提供了对总体平均数的很好估计，方差指示样本平均数可能偏离总体平均数的程度，样本量提供了估计的准确性。两个平均数之间的差异被标准化且用一个t值来表示。

当统计学家谈论真实差异时，他们会说“这两个样本可能来自不同的总体”。而你我以及具体研究者谈论真实差异的方式则可能是“共和党和民主党存在差异”，或“此药物降低了患感冒的几率”。

2.7.4　其他生效领域

数字并不知道自身来自何处。你可以用t检验去检查任意两组数字的差异性，不管它们描述的是人还是物。实际上，t检验的发明，最早为了在啤酒生产中判断整仓谷物的质量。

一名啤酒统计学家（梦想中的职业啊）想要发明一种方法，只需从谷物总体中随机抽取一小部分样本进行查验，而不是检验所有的谷物。剩下的故事就是历史了。所以我们今天可以说，统计研究人员所做的大部分工作的的确确是由啤酒驱动的。

2.7 比较两组