3.1 看万物的形状

    自然界几乎所有的事物都以相同的方式分布。只要你能够测量事物,不管它是什么,允许分数变化的情况下,它就有一个明确清楚的“正态分布”。如果你知道这种正态曲线的形状细节,就能对其表现作出非常准确的预测。

    统计领域里有一些奇迹。至少有三种工具(或三种发现)是如此绝妙和神奇,以至于只要统计学的学生学到并开始理解它们的美,就会变得无比激动。

    好吧,我可能有点夸大事实,但是的确有三种极好的理解世界的工具:

    • 相关系数[Hack #11];
    • 中心极限定理[Hack #2];
    • 正态曲线。

    因为我们已经在其他Hack中讨论了前两个奇迹的使用,现在我们把时间花在理解第三个(正态曲线)奇迹的形状和用法上。我很乐意展示这个能表现整个世界的正态曲线、正态分布、钟形曲线,如图3-1所示。

    3.1 看万物的形状 - 图1

    图3-1:正态曲线

    3.1.1 应用正态曲线下的区域

    统计学家已经非常详尽地定义了正态曲线。使用微积分和现实世界几百年的数据收集这两种方法可以发现,它们在关于正态分布的确切形状上得到的结论完全相同。图3-2展示了正态曲线的重要特征。平均数在中间,越偏离中心,分数的空间越小。

    3.1 看万物的形状 - 图2

    图3-2:正态曲线下的区域

    虽然理论上正态曲线是无限宽的,但是平均数左右两侧的各三个标准差足以涵盖所有分数。

    3.1 看万物的形状 - 图3分布的标准差是每个分数离平均数的平均距离[Hack #2]。

    1. 预测测试成绩

    回想我之前作出的论断:你测量的任何事物都呈现为正态曲线。那么,言外之意就是,我们测量的任何事物的大部分分数靠近平均数,只有少部分分数远离平均数。测量足够多的人,你会偶然获得非常远离平均数的极端分数,但是这种分数非常罕见。获得特定分数的人群期望比例,随着分数远离平均数而变得越来越小。

    那么你参加的下个测试会有怎样的成绩呢?我不知道有关测试或是有关你的任何信息,但我愿意打赌说你会获得一个接近平均数的分数。你也许会获得高于平均数的分数或低于平均数的分数,但是正态曲线告诉我,你的分数可能会非常接近平均数。

    为了作出这类预测并对预测的准确性有十足的把握,你可以用已知的正态曲线来估计分数落入X轴上(图表的底部,水平部分)任意两点间的百分比。刻度上配对标准差点之间的分数百分比,如图3-2所示。百分比总和是100%,这是由于凑整导致的。记住,有些分数,虽然只有一小部分,但和平均数的距离超过三个标准差。

    下面是有关曲线的几个重要事实,你能够利用这些事实去预测表现。

    • 大约34%的分数落入平均数至平均数上方一个标准差内。看到图3-2中的阴影部分了吗?如果你拿一些墨水给正态曲线下方的整个区域上色,那你会在这块区域消耗掉34%的墨水。
    • 大约34%的分数落入平均数至平均数下方一个标准差内。
    • 大约14%的分数落入平均数上方的一个标准差至两个标准差范围内。
    • 大约2%的分数落入平均数下方两个标准差至三个标准差范围内。

    你同样可以组合这些百分比作出以下陈述,比如:

    • 大约68%的分数在平均数正负一个标准差范围内;
    • 大约50%的分数落入平均数下方。

    你能用这些已知的百分比去做预测和概率解释。我们可以这么描述正态曲线:分数落入曲线的给定区域的百分比,也可以说任意给定的测试参与者落入给定区域的可能性。

    • 下一次测试中,有2%的几率,你会得到高于平均数两个标准差的分数。
    • 在我们的职业技能测试中,测试申请人仅有16%的几率会得到低于平均数一个标准差的分数。
    1. 设定标准

    政策制定者划分表现水平等级时,依赖于这样一个假设:能力是正态分布的。他们选择有这样表现水平的人:有一定百分比能够胜任该工作。在制订录取政策或服务标准时,如果想奇迹般地提前知道会有多少人符合要求,正态分布是一个非常宝贵的工具。

    比如,一所拥有高学术水准的大学,也许要求考生在一项能力测试中,分数至少高于平均数一个标准差。这样的话,他们就确保只招收能力在前16%的人。

    同样地,美国特殊教育政策规定了学生在特殊教育状况资格测试(因此,是联邦政府和州拨款)上的分割分数(cut score)。分割分数是一个人必须高于(或低于)的特定分数。假设政策制定者只支付为2%的儿童设立的特殊教育项目和教员的预算,那他们会把分割分数设在平均数之下两个标准差处。对正态曲线的信任,使得他们能够计算出需要拨款的儿童数量。

    3.1.2 体会正态曲线之美

    为了体会正态分布的神奇,你可以经常建立自己的正态曲线。想象你测量了某件事物(比如态度、知识、身高或速度)。你有某个评分系统,分数允许变化(比如态度调查分数、SAT分数、英寸或每小时英里数)。因为你测量了很多人、很多建筑物或很多麻雀,所以你有很多的分数。现在,把这些分数放到一张图上,图中X轴表示从最低到最高的实际分数值,从左到右(或是从右到左,如果你喜欢的话);Y轴(左侧垂直部分)代表分数群中每个值的相对频次。

    在这样一个图表中,线或点的高度代表特定值分数的相对比例。注意:在正态曲线上,最高点位于中间,最低点位于两端。中间的分数是平均分,也是最大众的分数。在正态曲线上,中位数等于平均数,也等于众数[Hack #21]。

    同样要注意,正态曲线是对称的:你可以将正态曲线对折,它的一边会完美地覆盖另一边。需要着重提及的正态曲线的另一个特征是:正态曲线是向两端无限延伸的。它是一条理论上的曲线,所以曲线的两端永远不会碰到底线。

    正态曲线是联系自然万物的普遍真理。它是完美平衡的。它是永恒的。它是不朽的。它看起来有点像一只恐龙,非常酷。