2.10 品尝苏格兰威士忌抽样
当统计学家从总体中选取人群样本时,他们实际上是从连续分布的变量中抽样。不过有些时候,当你把变量看作离散对象而不是连续分数时,更容易理解抽样的概念。
一些最强大的统计方法,是在等距测量或更高层次上[Hack #7]使用分数进行测量。但是,社会科学研究人员从总体中抽取分数时,总是选择人而不是分数。然后对人进行测量,产生一个分数的样本。迄今为止,这种做法的效果一直很好。
但是,说到抽样过程,精明的研究人员在取样策略上有时似乎并不那么精明。比如,如果一个研究者有意测量某个连续变量上的作用效果,比如幸福感,他也许会说(并且这么想):“好的,首先我需要一个样本,其中只包含幸福的人和不幸福的人。”至少在这个思考的瞬间,他是把幸福感作为一个二分变量来看待的。
二分是一个统计术语,表示“只有两个值”。比如,生理上的性别就是一个二分变量。
在他眼中,人们要么完全幸福,要么完全不幸福。当然,在现实生活中,他知道描述幸福感的分数范围区间是很广的,正因如此,他才用统计量做等距测量假设。
他把他的被试看做非此即彼(即不是幸福就是不幸福),是因为这么做能让他更容易描绘其抽样的代表性。这是一个聪明的策略,因为通过把样本视作大的分类变量的代表,而不是更精确的连续值,有时候能让抽样问题变得更容易回答和证明。
2.10.1 一个抽样问题
请看一个聚焦于抽样问题的难题。一个喝醉了的、无任期教职的统计学家(我见过不少)正在一个聚会上调酒。他在为他的系主任做威士忌苏打。主任要求威士忌和水达到某一精确比例(具体数字是多少并不重要,因为我们的主人公永远做不到那一步)。
这位统计学家首先找来两个容量相同的杯子。第一杯盛有2盎司苏格兰威士忌;第二杯盛有2盎司水。他开始从盛水的杯子里往盛有威士忌的杯子里倒了1盎司的水。显然,他已经搞砸了,因为他改变主意了,他把刚兑好的混合液体(3盎司威士忌和水的混合物)又倒回了1盎司到盛水的杯子里。现在两个杯子里都有2盎司的液体,但每杯的液体均为某种比例的水和威士忌的混合物。
这名统计学家很紧张,他试图重新开始,但是被系主任拦住了。系主任对他说:
“我有个提议:现在我们不可能知道每只杯子里威士忌和水的确切比例,因为我们不知道它们是怎么混合的。但是,如果你能正确回答下面的问题,我就为你向教职评定委员会写一封强有力的推荐信。如果你答错了,那么我可以肯定,凭你的资质,在酒店/ 汽车旅馆或是食品服务业找份工作应该不成问题。我的问题是这样的:现在,是第一杯里的水多一些,还是第二杯里的威士忌多一些?”
可以把这个问题想象为抽样问题。是第一个样本(即第一杯里的液体)中含有更多的水,还是第二个样本(即第二杯里的液体)中含有更多的威士忌?因为威士忌和水均由细小的粒子组成,很难想象每个样本代表的每种液体的量。即使按比例算,我们也不能确定有多少水粒子(或者说“水”的样本分数)混入了“威士忌”的样本分数,因为没人知道有多少水沉到第一杯的杯底部分,同时有多少留在顶部的酒被倒回了第二杯。这时人们需要凭直觉给出答案。令人遗憾的是,这个答案是错误的。
聪明人通常想到的直观答案是:第一个杯子(即开始盛有威士忌那杯)比开始盛水、后来又掺入威士忌的那一杯里的水更多。这似乎说得通,因为起初倒进威士忌里的是纯水,而后来被倒回水杯的则是水和威士忌的混合物。令人惊讶的是,这个聪明的想法把我们引入了迷途。正确答案是两个杯子里混合物的比例完全相等!威士忌杯中的水和水杯中的水含量相同。
2.10.2 使用比喻来解决问题
如果我们把此例中的变量想象成某种较大的物体,比如蓝色和白色的弹珠,而不是细微的粒子,那么问题的答案会显得更清楚。把一杯威士忌想象成一只装有100个蓝色弹珠的杯子。把一杯水想象成一只装有100个白色弹珠的杯子。
假设杯子很大,所以里面的弹珠能够很好地相混,就像混合液体一样。想想那种大玻璃鱼缸。这对确保选择的随机性很有必要。注意,睁大眼睛,在混合的每一步牢牢盯住这些弹珠。
我们的主人公从第二个杯子拿出50个白色弹珠,将它们混进第一个杯子。现在这两个变量的分布是:
- 样本1
100个蓝色弹珠,50个白色弹珠
- 样本2
50个白色弹珠
现在,他又从第一个杯子里随机取出50个弹珠(记住是随机的,以便模拟液体的混合),然后将它们混合到第二个杯子里。让我们想象一下各种可能的结果。
如果他碰巧选的全是白色弹珠,那么这些白色弹珠回到了第二个杯子,现在的分布情况是:
- 样本1
100个蓝色弹珠
- 样本2
100个白色弹珠
如果碰巧他连一个白色弹珠都没有选到,而是把50个蓝色弹珠放到了第二个杯子里,那么分布就是:
- 样本1
50个蓝色弹珠,50个白色弹珠。
- 样本2
50个白色弹珠,50个蓝色弹珠。
现在,想象一个更加可能的情景:他随机抽取的弹珠,一部分是白色的,一部分是蓝色的。比如,他可能抽出了10个白色弹珠和40个蓝色弹珠,然后把它们放入第二个杯子。在这种情况下,新的分布为:
- 样本1
60个蓝色弹珠,40个白色弹珠。
- 样本2
60个白色弹珠,40个蓝色弹珠。
按照这个方法,尝试你想要的任意一种弹珠混合方式,但是记住抽取的总数必须是50个(这是为了复制之前配酒的情境:往盛有威士忌的杯子里倒回1盎司水与酒的混合物,即杯中液体的一半)。
注意,无论你尝试哪一种混合方式,最后的结果都是每个杯子里各有100个弹珠。此外,最重要的是,注意最终第一个杯子里蓝色和白色弹珠的比例,始终等于第二个杯子里白色和蓝色弹珠的比例。任何不在第二个杯子里的蓝色弹珠必在第一个杯子里,任何不在第一个杯子里的白色弹珠必在第二个杯子里。
对于威士忌和水来说道理也是一样。正确的答案是它们的比例一定相同,不管最初是怎么混合的。
2.10.3 其他生效领域
现实生活中的民意调查公司要靠预测选举结果的准确性吃饭和维持自身名声,它们同样主要关心不同关键类别里每一类样本的比例。如果只有两个候选人,那么刚刚投完票的人不是把票投给了候选人A,就是投给了候选人B,即没有投给A的人必定投给了B。在一个类别里的缺失保证了在另一类别里的存在。以百分比的形式来报告预测结果带来了提高准确性的可能,但同样可能产生更大的误差:因为预测一个选民属于A类,结果却出现在B类,那么就在两个类别中都形成了误差。
当社会科学研究统计人员想要确定他们的样本能够代表总体时,他们主要关心的是特征在样本中所占的比例,而不是拥有这些特征的人数。最重要的是关键研究变量上,样本中每个分数的比例和总体中每个分数的比例相同。
