3.3 利用正态曲线预测未来

    在自然界中,我们测量的几乎所有事物都有一个已知的分布形状,即“正态曲线”,所以我们能够利用这个分布的精确细节来预测未来,并回答各种概率问题。

    本书中,很多Hack #都充分利用了统计学家和正态曲线的密切关系。“看万物的形状”[Hack #23]展示了使用正态曲线预测测试表现的大体方法。但是,我们能够做得更好。

    我们掌握了如此多的关于这条神奇曲线准确形状的信息,以至于能对分数落在某个范围内的概率作出准确预测。可以提出很多和测试表现相关的其他类型的问题,统计学能在我们参加测试前就帮助我们解答!比如:

    • 你的分数落在任意给定两个分数之间的几率是多少?
    • 有多少人的得分介于这两个分数之间?
    • 你通过下次测试的几率是多少?
    • 你会被哈佛大学录取吗?
    • 在美国有多少百分比的学生能够成为国家优秀奖学金获得者(National Merit Scholar)?
    • 我叔叔弗兰克通过门撒资格测试(Mensa qualifying exam)的几率是多少?

    回答这种类型的问题,需要一个精确的工具。本Hack提供了所需的工具:正态曲线下方区域的表格。

    3.3.1 正态曲线下方区域的表格

    正态曲线由分布的平均数和标准差来定义,不管我们测量什么,只要计分系统容许分数产生变化,那么曲线的形状就总是相同的。落入曲线下方不同区域的分数所占比例已经被明确规定好了,比如不同标准差之间的空间以及距平均数的距离。

    这个Hack依赖于一张看起来有些复杂的表格,但这张表格富含如此多的有用信息,以至于它会很快成为你黑客工具箱中的一个主要的工具。事不宜迟,让我们深呼吸,来看看表3-2。

    表3-2:正态曲线的下方区域

    z分数 平均数和z分数之间分数的比例 大区域中分数的比例 小区域中分数的比例
    0.00 0.00 0.50 0.50
    0.12 0.05 0.55 0.45
    0.25 0.10 0.60 0.40
    0.39 0.15 0.65 0.35
    0.52 0.20 0.70 0.30
    0.67 0.25 0.75 0.25
    0.84 0.30 0.80 0.20
    1.04 0.35 0.85 0.15
    1.28 0.40 0.90 0.10
    1.65 0.45 0.95 0.05
    1.96 0.475 0.975 0.025
    4.00 0.50 1.00 0.00

    3.3.2 解密表格

    在使用这个极好的工具前,我们需要再次深呼吸,然后了解一下情况。我已经用好几种方式简化了这张表的信息。首先,我只列举了一些能计算出数值的信息,并没有列出全部。事实上,很多统计学书以0.01为增长速率,列出了0.00~4.00的z分表数。那样会展示很多信息,此处我们截取最常用的一部分信息,包括达到90%置信区间(1.65)所需的z分数,以及95%置信区间(1.96)的z分数。想知道更多关于置信区间的信息,可参考“精确测量”[Hack #6]。

    我把比例四舍五入至小数点后两位。最后,我在表格中用z符号以标准差的形式表示和平均数之间的距离。你能在“给原始分数改头换面”[Hack #26]中,学到更多有关z分数的知识。

    理解了对表格所做的简化后,可以使用它对表现进行概率预测或回答统计问题,第一步就是理解第4列的含义。

    • z列

    描绘正态曲线[Hack #23]。你可能对某个可能落入底部水平线的分数感兴趣,而它与平均数也有一定距离。它可能比平均数大也可能比平均数小。用标准差表示与平均数的距离就是z分数。z分数为1.04,描述的是距离平均数1.04个标准差的分数。因为正态曲线是对称的,故而我们不用在意距离的正负,所以展示出来的z分数都是正值。

    • 平均数和z分数之间分数的比例

    在平均数和一个给定分数的空间内,存在某个比例的分数。这是一个随机分数落入由平均数和任意z分数所限定区域的概率。

    • 大区域中分数的比例

    你同样能够描述任意给定z分数和z分数为4.00之间的区域,或者说是曲线的末端。

    理论上,曲线不会真正终止,但z分数为4.00已经非常接近涵盖100%的分数。

    但是,曲线有两个末端。除非z分数为0.0,否则z分数和曲线一端的距离一定大于z分数和曲线另一端的距离。这一列指的是z分数和曲线最远端的区域,这一列的值是落入这个区域分数的比例。换句话说,是一个随机个体会在这个区域获得分数的几率。

    • 小区域中分数的比例

    这列指的是z分数和曲线最近端的区域。它表示落入这个区域分数的比例。

    3.3.3 估计得分高于或低于任意分数的几率

    如果你想知道被大学录取的几率,就要明确你需达到的分数,这个分数在学校入学测试中也被称作分割分数(cut score)。只要你知道了这个分数,就能找出这个测试的平均数和标准差。(所有这些信息可能都在网上。)将你的原始分数转换成z分数[Hack #26],然后在表3-2中找到那个z分数,或是接近z分数的分数。

    判断分割分数是否高于平均数。

    • 如果分割分数高于平均数,查看“小区域中分数的比例”列。那代表你获得等于或高于分割分数的几率,以及你被录取的几率。
    • 如果分割分数低于平均分(这不太可能,只是为了完整地训练你如何使用这个工具),查看“大区域中分数的比例”列。那代表被录取的学生比例,若其他因素等同,也代表你被录取的几率。

    确定得分低于一个给定分数的几率时,步骤和上述提到的选择相反。分割分数低于平均数,获得低于特定分割分数的几率在“小区域”列。分割分数高于平均数,则获得低于给定分割分数的几率在“大区域”列。

    3.3.4 估计得分介于任意两个分数之间的几率

    要想知道获得一个介于某个计分分数(scoringscore)范围内的分数的几率,可以通过查看正常落入那个范围的分数比例来计算。

    如果你想要知道有多少比例的分数落入曲线下方任意两个点的分数之间,那么通过z分数来定义这些点,并计算相关比例。根据两个分数是否落在平均数的同一侧,可利用下述方法计算介于这些点之间的分数的正确比例。

    • 如果z分数在曲线的同一侧,查看“大区域”列或查看“小区域”列,得到两个z分数,然后用高值减去底值。
    • 如果一个z分数落在平均数左侧,另一个z分数落在平均数右侧,平均数在这两个z分数中间,那么使用“平均数和z分数之间分数的比例”列。查看两个z分数值,然后将它们相加。

    3.3.5 计算百分等级

    这张表格的第三种用途是计算百分等级。你可以在“计算百分位”[Hack #24]中读到更多关于常模参照的内容。对于高于平均数的分数,百分等级是“平均数和z分数之间分数的比例”加上0.50。对于低于平均数的分数,百分等级是“小区域中的分数比例”。

    3.3.6 判断统计显著性

    这种表格的另一种用途是确定分数差异的统计显著性[Hack #4]。通过确定落入分数之间某个距离或更远距离的分数比例,你能计算出那个结果的统计概率。

    更有用的是,其他的统计值,比如相关系数和比例也能被转换成z分数,这张表同样可以用来将这些值和0对比,或者进行相互对比。

    3.3.7 生效原理

    “看万物的形状”[Hack #23]提供了对正态曲线的很好概览。但是,仅通过在表3-2中查看这些值的改变方式,你就能感觉到正态分布的形状。平均数附近,每行有着较小的z分数,但有很大比例的分数落入。随着向远离平均数的方向移动,若要包含相同比例的分数就需要越来越大的曲线区域。

    比如,z分数从1.65猛增到4,只覆盖了分布的后5%。但是,在平均数附近,z分数只需从0.12增加到0.25,就能覆盖分数的5%。这张表格证明了常见的有多常见,罕见的有多罕见。

    3.3.8 参阅

    你可以利用如下网址来计算自己的正态曲线下的准确区域:http://www.psychstat.missouristate. edu/introbook/sbk11m.htm。这个网站由大卫·斯托克伯格(David Stockburger)维护,里面有很好的讨论和交互式的计算器。当你访问此网站时,不要被Mu和Sigma这两个词弄糊涂了,它们是分别代表平均数和标准差的统计术语。