3.8　什么都不做也能提高测试分数

如果你对刚刚参加过的一场利害攸关的测试分数不满意，也许你应该再次参加这个测试。你觉得呢？

我们已经讨论了如何运用信度[Hack #6]的概念来精确测量事物。信度是指测试评估结果的一致性。换句话说，可信的测试产生稳定的分数，不可信的测试无法产生稳定的分数。由于测试不是完全可信的，所以其产生的分数至少有一部分是有随机性的，这些分数按照统计学家预测的方式上下波动。因为当你再次参加测试时，你的分数往往在测试的平均分上下波动，所以这种效应叫做均值回归效应（regression toward the mean）。

当你参加一些利益攸关的测试时，比如SAT、ACT、GRE、LSAT或MCAT，你总是有重新参加测试来尽力提高分数的机会。关于是否值得花时间、精力和金钱去尝试提高你的分数，取决于对测试信度的理解以及仅通过简单的均值回效应来提高分数的可能性。

3.8.1　均值回归

首先，让我们制造出一个均值回归，这样你就会相信，只因为正态曲线[Hack #23]特征，分数就能在预测方向上改变。眼见为实，我希望在你眼前呈现这个无形的神奇现象。

把表3-8中的判断题发给你关系最好的100个朋友。嗯，好吧，也许包括你在内有10个人也行。1000个会更好，只要数量足以让我向你证明回归的发生即可。我们准备这项测验时要记住，如果有100个或是1000个人参加这个非常难（或简单）的测试，那结果会更令人信服。

对于这个测试，你不需要看实际的问题。这个测试的测量内容和结构[Hack #32]不需要任何改变，分数就会改变。所以，在这个小测试上，你所能做的就是猜。因为它们是判断题，所以每道题你都有50%的几率答对。你那10人测试组（或是100人，如果你真的很在意这点……你能够至少找到30人吗？……还有谁愿意参加）的平均分应该是5分（满分为10分）。

表3-8：高等量子物理小测试

问题	圈出你的答案
1.	对或错
2.	对或错
3.	对或错
4.	对或错
5.	对或错
6.	对或错
7.	对或错
8.	对或错
9.	对或错
10.	对或错

让你所能联系上的所有人都来参与这个高等量子物理测试。当你和其他人参加这个测试时，即使标准答案近在咫尺（在表3-9里），也不要作弊去看标准答案！

表3-9：高等量子物理测试标准答案

1. 对	2. 对	3. 错	4. 错	5. 对
6. 错	7. 错	8. 对	9. 对	10. 错

把这些完成的测试（确保他们都填写了名字）收集上来，然后对照表3-9中的答案进行计分。

现在，选出你小组的得分最高者（这可能代表某些和你一样的人，他们在标准测试，比如SAT中，得分高于平均分），得分最低者（这也许表示某些和你不一样的人，他们的得分比平均分低）。对这两个人再次进行测试（他们没有查看正确答案），然后再次计分。

下面均值回归起作用了。不需要了解你或你的朋友，也不需要知道他们的答案是什么，有两件事情我相当肯定：

第一次得分最低的那个人，第二次的得分会比他第一次的高；
第一次得分最高的那个人，第二次的得分会比他第一次的低。

如果真是如此，那么啊哈！我早就告诉你了嘛！如果不是这样，我跟你说的只是“相当肯定”而已。如果有更大的样本，结果如此的可能性也更大。

3.8.2　生效原理

我们对这两个分数的预期是：所有低于5分（或是你测试的平均数）的测试分数会向上移动，趋向平均数；所有高于5分的测试分数会向下移动，趋向平均数。你的两个分数可能会出现这种情况，也可能没有出现这种情况，但它是最可能的结果。

记住，这是一项知识对分数没有影响的测试。两次分数都完全是由几率导致的。但是，即使在知识会影响分数的真实测试中，这种效应也会出现。那是因为没有一个真实测试是完全可信的，几率在每个测试上多少会起点作用。这个例证只是将测试置于几率百分百地影响测试人员分数的情境下，由此夸大了这种效应。

那么，为什么在第二次测试时，分数可能发生改变并向平均数靠拢呢？从长远来看，有100个或1000个测试分数集合，我们会期望某种像正态分布的结果。就像扔硬币一样（结果可以是正面或反面，两种情况下的几率都是50%），在判断题测试上（或任意测试），概率都是和特定的结果联系在一起的。表3-10展示了高等量子物理测试中，可能的分数以及测试人员得到那个分数的概率。

表3-10：可能的测试分数分布

分数	概率
0	0.001
1	0.010
2	0.044
3	0.117
4	0.205
5	0.246
6	0.205
7	0.117
8	0.044
9	0.010
10	0.001

为什么很极端的分数在重复测试后变得不那么极端了？看看得到两个极端分数（比如第一次是2分，然后第二次也是2分）的概率，对比第一次分数是2分（概率是0.044），然后第二次是4分（概率是0.205）的概率。一个人第一次得2分，第二次得4分的概率几乎是两次都得2分概率的5倍。几乎有95%的把握说他会获得高于2分的分数（1-0.044-0.010-0.001=0.945）。

“均值回归”一词得名于著名的弗朗西斯·高尔顿（查尔斯·达尔文的堂弟），他研究父母和成年子女的身高问题。他发现，成年子女的平均身高更接近于所有成年子女的平均身高，而不是他们父母的平均身高。虽然高尔顿把这个观察结果称作“平庸回归”（由此高尔顿不再仅仅作为外交家而知名），但我们会友善一点。这和遗传没有任何关系，但和统计有密切联系。

这个测试的分数完全受几率影响，有65.6%的几率能得到平均数或非常接近平均数的分数（4分、5分和6分的组合概率）。对于大多数测试来说，它们有着更多的题目数，形成正态分布，这样你有68%的几率获得平均数或接近平均数的分数[Hack #23]。

3.8.3　预测获得更高分数的可能性

有趣倒是有趣，但它如何帮助你判断是否值得再次参加测试呢？这就回到了我们最初的两难问题上。再次参加这些重要测试（比如大学录取测试），会花费更多的钱、时间并带来更大的压力，也许还需要准备，所以我们需要战略性地决定什么时候再次重试。

当然，你可以通过提高测试所需的知识水平来真正提高自己的考试成绩。如果你通过学习、参加模拟考试或预备课程等来准备测试，你可能会获得更高的分数。但是，如果你获得很低的分数，那么即使在两次测试间隔期你什么都不做也有可能提高分数，就因为均值回归。你能在两次测试间隔期很轻松，而分数依然可能提高。真是幸运儿！

只通过再次参加测试，你就能获得更高的分数，这种可能性取决于两件事：你第一次的测试分数和测试的信度。

你的分数

因为分数可能（只因为几率）向平均数移动，给你第二次机会，你能做得更好的几率取决于你第一次的分数究竟低于还是高于平均数。把平均数想象成你听见的巨大吮吸声，它将所有的分数沿着分布拉向它。平均数以下的分数比平均数以上的分数更有可能上升。

测试的信度

测量统计学家用一个数字表示信度，代表并非由几率导致的分数变异比例。那么，信度越高，几率在决定你分数时起的作用越低。可信分数是稳定的分数，平均数的超级吮吸力不如一个可信分数。

统计学家已经开发出了一个公式，你能运用这个公式计算分数的变化空间。如果有足够的成长空间，你可能考虑第二次尝试。这里用到的一个非常有用的工具是测量标准误差。下面是测量标准误差[Hack #6]的公式。

大多数标准测试在每次执行期间，都会发布由测试产生的成千上万个分数的信度水平和期望标准差。通过将这些测试的值代入测量标准误差的方程式里，会对从测试到重测的分数变异有一个大致概念，这种变异可能在被测人员没有任何真正改变的情况下发生。

但是，即使是标准误差，对极端分数来说，也可能出现误导。非常低的分数和非常高的分数，仅由几率导致的移动距离可能比标准误差建议的距离要大。你离正态越远，抗拒正态分布的万有引力就越难。极端分数无法抗拒那种引力，除非它们是完全可信的。

总之，下面是关于如何决定是否该重新参加测试的合理建议。

如果你获得了相对很高的分数，但没有高到你期望的水平，那么可能不值得再参加一次测试。
如果你获得的分数很低（远低于平均），几乎可以肯定你第二次的分数会更高。再试一次吧。第二次你应该也更努力了一些。

——尼尔·萨尔金德

3.8 什么都不做也能提高测试分数

3.8　什么都不做也能提高测试分数