2.9 公正取样
如果你想了解企业的每位顾客或员工的情况,可以找他们每一个人谈话。如果你关注自家酒吧里出售的啤酒质量,可以在上酒前把每一杯都尝一尝。或者,为了节约时间、金钱和脑细胞,不妨代之以高效的“取样”。
健康的管理有赖于熟谙每个产品细节、每一笔交易和每一位客户的特点。当然,你永远无法将所有这些产品、交易和人整体都带到同一个显微镜下进行观察和评估,因为没有足够大的样本载玻片。
在社会科学领域也是一样,以人作为研究对象的学者不可能测量每一个人。就算我们有心尽可能多地刺探隐私,惊动别人,打断人家的事务,给人添麻烦,让人尴尬,换句话说就是打搅世界上的每个人,也不可能做到。我们没有足够的时间、空间和金钱,坦率地说,没人真的想要了解这么多人。
需要面对的问题是:“如果不一一查看,又怎能了解每件事?”正如这本书介绍的所有Hack一样,统计学能提供解决办法。有很多科学合理的方法,让你通过观察任何事物的一小部分,就能准确描述其总体。
2.9.1 使用样本进行推论
推断性统计使我们能够基于小量的样本数据,引出一般性的总体结论。然而,要使这种推广有效,样本必须公正地代表总体。
总体,按照这里使用的意思来看,极少等同于社会学研究用语中“一个国家、城市或星球的全体居民”的意思。在推断性统计中,总体一词描述的是作为研究对象的某一类人或事物。比如,内布拉斯加州所有小学三年级的男生,堪萨斯州梅利亚姆市肖尼米什医疗中心(Shawnee Mission Medical Center)的护士,南美巨型水獭,或是美国国会图书馆的藏书。唯一的规则是总体要大于其对应的样本。
一个良好的样本能代表一个总体。这意味着总体中每个重要特征的分布必须和样本中这些特征的分布成比例。本项Hack大部分都是关于如何构建一个良好样本的,所以我们先来看一个好的样本。
想象一个由正方形、菱形和三角形构成的总体,如图2-4所示。

图2-4:总体中的一个样本
从正方形、菱形和三角形构成的总体中抽取一个公正的样本,其中包含这些形状,比例与它们在总体中的比例相等。在示意图中,外层的椭圆代表一个总体,其中不同形状的分布比例如下:正方形占40%,三角形占20%,菱形占40%。内层的椭圆代表样本,包含着总体中这些元素的一个子集。样本中各种形状的比例分布和与总体中各种形状的比例分布相同:40%的正方形,20%的三角形,还有40%的菱形。
这个样本是公正的。它很好地代表了总体,至少在形状特征上如此。当对人或对物取样时,样本通常呈现出多种多样的特质。人或物不完全是三角形或正方形,所以对于一个由人构成的样本来说,当其中某种特质的平均水平很好地匹配了总体水平,这个样本便具有代表性。在本例中,各种形状均为单一特质,而人则不然,各种特质在一个人身上可能或多或少地都有所呈现。(尽管根据我婶婶海洛薇兹的说法,我叔叔弗兰克是个“方正” 至极的人。2)
2square除了指方形以外,还有为人诚实公正之意。——译者注
提出问题的人必须选择他感兴趣的总体,其后他引出的结论只针对那个总体时才是正确的,而不适用于任何其他总体。
如果你知道构建该样本(内层椭圆中的元素)的采样方法是正确的,那么你可以仅通过观测样本来得出总体推论。其方法简单而又直观。
1.观测样本。比如,样本中三角形占20%。
2.对总体进行推论。我敢说三角形在总体中占20%。
我们且把理论总体中的抽象三角形放在一边,来看一个具体的例子。假设你想检查自己酒吧里出售的啤酒质量。为了解啤酒的总体质量,你需要构建一个良好的在售啤酒样本,然后逐一品尝样本。
1.观测样本。比如说,其中20%余味发馊。
2.对总体进行推论。我敢说你售卖的啤酒里余味发馊的占20%。你可能需要清理啤酒龙头。
推论很容易做,但只有当样本良好时,推论才是有效的。关键是构建一个良好的样本。
2.9.2 构建最好的随机样本
良好的样本代表了总体。代表性取样首先得定义好全集,即研究者想要从中取样的总体。在选择总体和选择样本时,对元素和各种隐性或显性的分组层级进行概念化的方法有很多种。你必须了解这些组织总体的方式,否则就无法创建好的样本。
- 通用全集
指研究者希望将其结论推而广之的抽象总体。比如,我针对的可能是所有的漫画书收藏者。
- 可操作全集
可进行抽样的具体总体。比如,我不能完全确定自己已经找到或计算出了所有的漫画书收藏者,但我能通过将其定义成“所有的《漫画买家指南》(一本大多数认真的收藏者都会阅读的月刊)订阅者”,将总体变得可操作化。这种可操作总体不完全等同于通用全集,但它应该几乎和抽象总体一样大,而且能包纳研究者关注的抽象总体中的大多数。
- 抽样单元
指定义总体的元素。在本例中,每位杂志订阅者就是一个抽样单元。
- 抽样框架
指总体中抽样单元的列表,无论是真实的还是想象的。在本例中,抽样框架是杂志订阅者列表,我也许能够从杂志编辑部买到。
如果一个观察结果对于样本范围之外的人或事物可能有效,我们称之为可泛化推广的。如果一个样本不代表一个总体,那么这个样本就是有偏样本(一个坏样本)。
毫无疑问,最好的抽样策略是从有效的抽样框架中随机抽样。随机选择能够最好地创建一个能代表总体中所有被关注特质的样本。但是,随机选择的真正力量在于,抽样结果也代表了你根本没考虑到的、可能影响到观测结果的所有类型的变量。
从技术上讲,“随机”这个词描述了这样一个抽样过程:它给予总体中每一个成员相同和独立的入选机会。相同意味着抽样框架中的每个抽样单元和其他抽样单元拥有同样的机会。独立意味着一个人或一件事被选中的几率和其他特定的人或事是否被选中没有关联。
所以,假设有这样一个选择过程:按客户名单打电话,询问他们是否愿意参与活动,但如果第一次致电发现该客户不在家或者不在办公室,就放弃继续联系,这种做法没有给予所有可能的参与者相同的入选几率,不容易联系的人被选中的可能性较小。如果一个办公室里有人被选中时,就不再邀请同办公室的其他人,那么总体中每个成员的入选几率就不是独立的。
随机抽样可以通过这种方式来完成:用数字标记抽样框架列表里的所有名字,然后用某种随机数字选取法来选择每个被试。
2.9.3 现实世界的抽样策略
在现实世界里,随机抽样往往很难或者说是不可能的。下面是一些抽样策略,虽然不如随机抽样,但在一些想象的科学实验室之外,却更加现实。
- 方便抽样
样本选择基于可得性。有时候也称作偶遇抽样。去本地购物中心,询问你最先遇到的10个人,了解他们对你公司产品的态度,这就是方便抽样。
- 系统抽样
单元是从抽样框架中等距抽取的。比如,你可能会从一个很长的人员列表中逢10抽取一个。只要列表中的人名顺序和你要判断的内容没有关联,这个方法对总体的代表性可能不亚于真正的随机选择。关于这个问题,统计学理论家和实践家之间实际上存在一些学术争论。
- 分层抽样
抽样框架被分成有意义的子群组,单元是从每个子群组里随机抽取的。如果定义子群组的特质对你提的问题很重要,那么这种方法可能会产生一个比随机抽样更具代表性的结果。
- 整群抽样
单元群组是随机选择的,这些群组中的单元都作为样本。例如,你可能会随机选择一家出版公司,然后就如何在出版界取得成功的话题访谈每一位员工。
- 判断抽样
其样本的选择是基于你的专业判断,决定这个样本能否代表总体。你也许会选择只和最佳客户们谈话,因为他们对你的产品最了解。
2.9.4 选择样本量
如果你能构建一个符合上述定义的良好的样本,那么即便是小样本也可以有效。不过,就像巧克力脆片曲奇饼的例子一样,我们的样本也是越大越好。样本量越大,就越能代表总体。因此,这样的观测结果更具有可泛化推广性,你也能更加确信其准确性。
同样,如果观测显示,变量之间存在某种有趣的相关,而且当你观测样本中的多个元素时,发现此种相关的可能性肯定比只观察少量元素时更大,你便能确信这种相关不是随机发生的。
最后,如果你的抽样的确出于某种社会科学的假设,那么在技术上必须符合特定的统计特征才能进行某种分析。在大样本中(譬如包含30个或更多部件的样本),这些标准更容易满足。
2.9.5 参阅
- “看清实际错误程度”[Hack #18]介绍了如何在推断性统计中确定误差大小。
