5.10 按优劣程度排序
有很多方法可以使用数据判断任何体育项目上谁是最好的。然而,所有比较体育运动上的个体表现的直观方法都需要考虑效度问题。
我和我的朋友们总是在竞争。最近一段时间,我们的战斗舞台一直是扑克。按照惯例,我和朋友们聚集在我家,参加一个得州扑克锦标赛。这是一个非正式的比赛,但大家都对它非常认真。我们的扑克锦标赛的规则是:每个人开始都用等量的筹码,当筹码没了,他们也就离开了。有一人第一个离开,有一人最后一个离开,还有一些人在中间离开。因此,举例来说,如果7个人打比赛,就有人排在第一、第二、第三、第四、第五、第六和第七。
我们都认为自己技艺不错且相当有竞争力,我们渴望有一种客观的方法来比较比赛表现。作为该组中的统计学家之一,我当仁不让地设计出具有某种客观指标的多种方法,这种指标使得所有参赛者能够将他们之间的表现进行相互比较,从而能一劳永逸地判断谁是最好的玩家,谁只是偶尔交好运而已。这是关于我探索和选择统计解决方案的故事。我并不是要把结果说出来,但我知道,没有一个统一的最佳解决方案。
5.10.1 如何公平排序
一些有竞争力的组织,如体育联盟和协会,经常遇到如何确定最佳这种问题。问题的关键是如何在各种类别、场地和场合概括总结表现。
在体育界,有3种常用的方法可用于作出谁“最好”的判断。所有的方法在直觉上都基本讲得通,但每种方法都有其特定的优缺点。
首先,让我们来看看,我要分析的数据的性质。你的数据可能和我的数据类似,不论你运行的是每周家庭大富翁游戏的数据还是职业高尔夫协会的数据。虽然扑克不是一项运动,但任何有组织的、有竞争的努力都能提供排名的数据。表5-16显示了我自己的夏季联赛的扑克比赛结果。
表5-16:夏季扑克联赛数据
| 保罗 | 丽莎 | 比利 | 贝宁 | 马克 | 布鲁斯 | 凯茜 | 蒂姆 | 戴维 | |
|---|---|---|---|---|---|---|---|---|---|
| 5/14 | 6 | 5 | 4 | 3 | 2 | 1 | |||
| 5/21 | 3 | 6 | 4 | 5 | 7 | 2 | 1 | ||
| 5/28 | 5 | 4 | 1 | 3 | 2 | ||||
| 6/4 | 4 | 6 | 3 | 7 | 2 | 5 | 1 | ||
| 6/11 | 4 | 5 | 6 | 1 | 2 | 3 | |||
| 6/18 | 5 | 4 | 2 | 3 | 1 | ||||
| 6/25 | 1 | 4 | 3 | 5 | 2 | ||||
| 7/2 | 1 | 5 | 4 | 3 | 2 |
你可以看到,9名玩家至少都参加了一场比赛,但没有任何一场是所有玩家都参加的。如果一个人在某一天晚上没有数字,那是因为他没参赛。这在体育运动中是常见情况,如高尔夫球和网球。
在两种情况下,7人上场,但在其他场合,只有5人坐在一起打牌。有4个人参加了全部的8场比赛。(这些都是铁杆玩家,他们不得不承认,他们在认识什么是生命中最重要的这件事上有点问题。)有一名玩家戴维,只参加了一场比赛。
玩家名字下的数字表示他们的出局顺序。如果有6名玩家,你第一个出局,那你会得到一个点数,排在最后一名。如果你是6名玩家的赢家,你会因为是第一名而得到6个点数。
这个计分系统有一些需要注意的地方。首先,你只要参赛就会得到至少一个点数。其次,如果有更多的玩家参与,你就需要更多的积分来赢得比赛。
那么,如何在扑克联赛中对玩家进行等级排序?以下是3种常见的解决方案,所有这些方案都多少起点作用。
- 总点数
对我而言,首先浮现在脑海中的是简单地把各场比赛的点数加起来,并根据玩家的总点数对其进行排序。这是名人按收入排名或银行劫匪按自己的犯罪数量排名时采用的方法。只需要参加很多比赛就能提升你的名次。要想成为年度的高尔夫球手,你必须参加很多场比赛,此外在这些比赛中,你的表现要过得去。
- 平均表现
第二种方法是用总积分除以玩家参加的比赛数量得到平均点数。产生一个平均点数的妙处在于,你得到了一个代表典型表现水平的数字。这对测量难以捉摸的东西是理想的,比如天赋。你在扑克中(或任何其他赛事)的平均表现应该是能力的最佳单一指标。
- 总的获胜数
第三种方法在团队运动中最简单、最常用,即计算胜利的次数。最经常获胜的玩家是最好的玩家。此方法适用于锦标赛风格的扑克(我们玩的那种),以及任何有一个明确赢家的赛事。
5.10.2 比较3种方法
每种排名方法都有各自明显的优势,并各司其职。表5-17展示了在这3种排名系统下每个玩家的值。
表5-17:扑克表现摘要
| 保罗 | 丽莎 | 比利 | 贝宁 | 马克 | 布鲁斯 | 凯茜 | 蒂姆 | 戴维 | |
|---|---|---|---|---|---|---|---|---|---|
| 点数 | 9 | 11 | 28 | 36 | 28 | 25 | 12 | 8 | 1 |
| 平均点数 | 4.5 | 5.5 | 3.5 | 4.5 | 3.5 | 3.13 | 1.71 | 4.0 | 1.0 |
| 获胜次数 | 1 | 1 | 2 | 1 | 2 | 2 | 0 | 0 | 0 |
所有这3个评分系统都是合理的。但是关于谁是最好的问题,这3个系统都有不同的答案!对像我这样的扑克科学家来说,这无疑是一个令人沮丧的发现。因为这3种方法都有理由被认为是“最好”的排列方法,而每个方法都产生不同的“最佳”扑克玩家,这有点矛盾。表5-18展示了采用各个计分方法的排名区别。
表5-18:扑克排行榜
| 保罗 | 丽莎 | 比利 | 贝宁 | 马克 | 布鲁斯 | 凯茜 | 蒂姆 | 戴维 | |
|---|---|---|---|---|---|---|---|---|---|
| 点数 | 7 | 6 | 2.5 | 1 | 2.5 | 4 | 5 | 8 | 9 |
| 平均点数 | 2.5 | 1 | 5.5 | 2.5 | 5.5 | 7 | 8 | 4 | 9 |
| 获胜次数 | 4 | 4 | 2 | 4 | 2 | 2 | 6 | 6 | 6 |
请注意每个系统下的“最佳玩家”有什么区别。在总点数系统下,贝宁是最好的;在平均表现系统下,丽莎是最好的;在总的获胜数系统下,3人并列第一,但贝宁和丽莎却不在其中。3种方法唯一真正的一致是:戴维被评为最差的玩家。(对不起,戴维,但数字不会说谎,我为公众的嘲笑感到遗憾。也许我可以把这本书的免费复印本送你,向你示好?)
我指派排名时,通过将那些平局的人进行平均来打破平局。换句话说,比利、马克和我自己在获胜数系统下并列排名第一,所以1、2、3的排名,平均后是2,这就是我们的排名。
如果有3个不同的评分系统产生3个不同的排名,很显然,它们不可能都同等有效。它们不能都以相同方式产生真正体现我们感兴趣变量的分数,这个变量定义为玩扑克的能力。解决方案没有包含最佳方法的选择。我的目标不是确定最佳的系统并采用它,我的目标是提供有效的信息,让别人按他们的需求解释他们的数据。
我的解决办法是提供基于3种计分方法的所有3种排名。这样一来,玩家可以选择把重点放在对他们最有意义的方法所产生的排名结果上。
5.10.3 故事的结尾
在我的扑克联赛中,对玩家最有意义系统是让他们排名最高的系统。想象一下。
“任何一种方法可能都是可接受的、准确的。”带着这个认识,晚上我安稳地睡着了。毕竟,这3种方法中没有一种,会犯这样一个错误:得出我是最好玩家。关于这些方法,其中或自身一定有某种效度证据!
现实生活中的职业体育组织通过创建复合的积分系统来处理单个系统的优缺点。一些在网球和高尔夫球赛中(还有扑克锦标赛)用来改善排名系统的措施包括:
- 结合很长一段时间的表现数据;
- 对赢得更困难的比赛给予更多的点数;
- 同时使用平均表现和总点数系统,以奖励优秀球员和频繁参与的球员。
有点讽刺的是,这些系统中可能更公平、更准确的系统常常被媒体和球迷认为过于复杂和疯狂。使排名系统更有效的尝试,经常被公众视为无效而遭到拒绝。
