2.11 选择可靠的均值

    数据驱动的决策,比如判断自己在新城市是否买得起房,或者在生意上校准核心市场,总要依赖“均值”作为对大数据集的最好描述。问题是,有三种完全不同的值都可以被称作“均值”,而且它们往往导致不同的决策。所以,在决策中要注意选用正确的均值。

    大多数人听到“这个镇里的平均房价是29万美元”(你可能觉得这一价格水平很便宜,也可能觉得很贵或者适中,这取决于你在哪个地方安家),他们会认为这个数字是通过加总镇上所有房屋的销售价,再除以房屋总数而算出的。但是统计学家知道,计算“均值”的方法不止一种,有时候其中一种比另外一种更好一些。

    29万美元的价格是否真正代表了典型房价,取决于这个均值究竟是平均数、中位数还是众数。它同样取决于所有平均数据的分布形状。聪明人会确保决策中使用的是最佳汇总值。以下讨论的是每种均值的信任场合。

    2.11.1 趋中趋势的度量

    计算一组值的均值,无论它们具体是房价、期末考试分数,还是上瑜伽课的学生数量,目的都是为了有效传达这些值的趋中趋势。的确,大多数时候,趋中趋势是通过加总分布中的所有值,再除以这些值的数量之和确定的。然而统计学上并不把这个称作均值,而是称作平均数。那么,为什么不总是用平均数来计算趋中趋势呢?因为在一些情况下,平均数不能代表任何真实值!

    请考虑本节开头提到的房屋均价的例子。假设你收集了镇上300所房屋的数据,想要计算这个样本中的平均售价。一般来说,平均数不能很好地指示房屋价格的趋中趋势。原因见图2-5。

    2.11 选择可靠的均值 - 图1

    图2-5:平均数对均值的误导

    在这种情况下,平均数不是非常可靠的均值,因为销售价格的分布被一些偏离中心的极大值所歪曲。在由300所房屋组成的样本里,231所房屋的售价介于10万美元到60万美元之间。剩下的69所房屋,售价在60万美元以上,其中56所超过了100万美元。平均数受到这些极大值的严重影响,因此无法代表样本中的任一房屋。

    在大多数以金钱作为变量的情况下,都不太适合以平均数作为均值。依据平均数报告的平均收入指标总是高于大部分人的收入水平。因为总有少数像比尔·盖茨和J. K. 罗琳这样的人,会把平均数拉高。

    那么,对这种类型的值,什么才是“有效的平均”?对于类似图2-5中的分布,可靠的统计学家倾向于报告中位数,而不是平均数。中位数是在分布中处于中间位置的值,即整个分布中有一半的值低于它,另外一半的值高于它(就好比高速公路中央的那条线,把路面分成两半)。在这个例子中,数据分布的中位数恰好是29万美元,因此它能很好地度量趋中趋势。

    2.11.2 选择中间地带

    中位数在这些情况下表现不错,因为与平均数相比,它对极端值的敏感性要低得多,因此当分布是正偏态分布或负偏态分布时,统计人员更倾向于采用中位数。故而,当分布被一些远远小于其他值的极端值所歪曲时(如图2-6所示,此例为包括50个学生测验分数的虚拟集合),中位数也被视作最“有效”的趋中趋势度量。

    2.11 选择可靠的均值 - 图2

    图2-6:中位数是对趋中趋势的最有效度量

    图2-6显示了另外一种类型的数据,在这种情况下使用平均数可能导致错误的结论。以中位数作为度量,可以对班级分数得出更加准确的解释。

    2.11.3 不适用领域

    但是,即便是中位数也并不总是有效。考虑下面这种情景:假设你是一名瑜伽教练,你班里一半的学生年龄介于25岁至35岁之间,另外一半介于50岁至60岁之间。你会怎么描述学生的平均年龄?

    像这种情况下的问题在于,无论平均数还是中位数都无法恰当描述这些个体构成的群组。那该怎么办?在这种情况下,最有效的均值选择是报告众数,也就是在数据样本中出现最多的值,如图2-7所示。

    2.11 选择可靠的均值 - 图3

    图2-7:作为最有效均值的众数

    在这种情况下,有两个众数:一个是30岁,另外一个是54岁。一并报告这两个数值就是选择最有效均值的最佳方式。对于这种类型的数据,平均数和中位数都会形成误导。

    2.11.4 如何选择有效均值

    那么,什么时候平均数是有效均值?基本而言,当只有一个众数并且呈对称分布(意味着两端任意一个方向上都没有明显的歪曲)的时候,平均数是最佳的选择。如果你瑜伽班上的学员都是25岁到35岁,那么平均数便会是有效均值。

    归根到底,应当如何选择最合适的均值呢?当你在报告汇总值的时候,遵循下面三条简单的原则,可以保证均值有效。如果你是基于这些数据做出决策的人,遵循这三条原则同样会让你作出有根据的选择。

    • 如果数据中存在两个或更多的“趋势”(即两块或两块以上高频值区域),那么选择众数,并报告每个趋势的众数。
    • 如果分布是偏态的(即一小部分极端值严重影响着平均数),那么选择中位数。
    • 如果分布非常对称,且只有一个众数,那么选择平均数。

    注意在大多数情况下,平均数、中位数和众数三者会非常接近,这很有趣。那么为什么要采用平均数呢?平均数始终是报告均值最常用的方式,因为如果我们想要获取另外一个样本数据并观察其趋中趋势,平均数更易于复制。中位数和众数的可变性较强,而平均数则比较友好和稳定。

    ——威廉·斯科朗普斯基