5.7 预测棒球比赛的胜负

    打开你的收音机,停在棒球比赛电台5秒钟,然后将其关闭。不需要听到分数,你就可以说出获胜的一方,你有超过一半的次数是对的。

    你看,我是个大忙人。我一直在寻找一种方式节省花在生活中不太重要的事情上的时间,比如追随我喜爱的本地棒球队,这样我就有更多的时间花在生活中重要的事情上:朋友、家庭、讨论Holm's sequential Bonferroni方法3作为方差分析的合适补充方法,等等。一个典型的例子就发生在几天前。我想知道堪萨斯城皇家队是否会赢得一场正在进行的棒球比赛,但我几乎没有时间等到比赛结束。我现在就想知道结果!

    3Holm's sequential Bonferroni方法是在统计学中用来控制I型错误的方法。——译者注

    5.7 预测棒球比赛的胜负 - 图1就像维鲁卡·索尔特4和她对拥有一个威利·旺卡5工厂里的奥古伦伯人6的兴趣一样,“就现在!”,我没有太多的耐心。

    4Veruca Salt,《查理和巧克力工厂》中的人物。——译者注
    5Willy Wonka,是《查理和巧克力工厂》里的一名虚拟角色。——译者注
    6Oompa-Loompas,奥古伦伯的本地人,作为工厂中的小矮人工人,他们表演了一场又一场精彩的舞台剧。——译者注

    就像一个晴天霹雳,我意识到,我可以打开车上的收音机,只需短短几秒钟,我就能有足够的信息来猜测比赛结果。我能做到这一点,且不需要听得分情况或谁在垒上。

    5.7.1 如何生效

    在棒球比赛开始后的几个小时内,打开那场比赛的广播。收听时长能刚好确认哪个球队在击球即可。那支球队有大于50%的几率赢得比赛。

    5.7.2 生效原理

    棒球是这样一种比赛:你进攻的时间越长,你能获得的分数越多。随着一局中出现越来越多的击球员,沿着垒径跑动的击跑员和穿过本垒板的几率增加。另一种看待它的方式是,想象一局比赛快结束时,某支队伍获得了很高的得分。如果这个球队得分很多,他们必定已经使用了比那局规定最少的3个击球员更多的击球员,因此,在垒上的时间比其他的球队要长,长出的时间和队员数成比例。比赛过程中,在垒上时间最长的球队更容易得分多(或有更多的成果显著的赛局)。

    抽样理论[Hack #19]表明,样本最有可能捕捉总体中最常见的元素。在这里我们的总体是一场比赛中我们能听到的所有时刻。总体中最常见的特征(用“谁在垒上”表示)属于在垒上时间最长的球队。

    图5-4显示出常规9局比赛的垒上时间的可能分布。在这个例子中,获胜的球队有58%的时间处于进攻状态。现在回想起来,随机找个时间打开广播,有58%的几率发现获胜的球队在垒上。

    5.7 预测棒球比赛的胜负 - 图2

    图5-4:输赢球队的垒上时间

    从长远来看,利用棒球广播节目信息预测比赛结果的准确度应高于50%,但不一定真的很准。这是因为在垒上的时间和进球获胜之间的关系不是一个完美的相关[Hack #11]。球员可以得分快点,比如,在他们的第一球击中一个本垒打;或者他们可以花自己的时间获得很多击打次数,但困住了很多击跑员,从不得分。

    但是,总体上,两个变量之间的相关性应是正的。即便图5-4中我想象的数据可能仅有58%的准确率,但这也比你盲目猜测的准确率高出16%。如果在21点牌桌边有这样一个优势,你会在一个星期内变成百万富翁。

    5.7.3 证明有效性

    为了测试我观点的正确性,你可以使用日报上出现的数据。虽然大多数比赛记录表没有每支球队垒上总时间这一信息,但有一个变量提供了几乎相同的信息。记录表肯定会报告一个“总垒上数”(total at-bats)。虽然这个统计量和垒上时间不一样,但它们之间应该有相当高的相关性。每一天都会提供十几场比赛的这个信息,短短几天的有价值的数据应该足以检验我的理论。收集每支球队的总垒上数,包括哪支球队赢得了比赛。

    5.7 预测棒球比赛的胜负 - 图3现实生活中的研究人员往往无法获得他们真正想知道的变量,我们使用垒上数量代替垒上时间就是一个很好的例子。相反,我们必须选择另一个可用的最好的变量。科学家们称这些替代品为代理变量或替代变量。

    我的假设是,垒上数最多的球队,赢得比赛的几率大于50%。出于好奇,我测试了自己的这个假设。我用芝加哥小熊队作为例子,因为他们的统计资料在网上都是现成的。我随机选取了2003年小熊队最初的25场比赛。通过对这样比赛的分析发现,垒上数最多的球队,赢的几率为56%。如果我消除在垒上平局的3种情况,我预测的准确度就有63%。虽然垒上数最少的球队,有时也会战胜芝加哥小熊队,但垒上数的差距越大,垒上数最多的球队越有可能赢。当垒上数最多的球队获胜时,他们平均比输掉的球队垒上数多出4.14。当垒上数最少的球队获胜时,他们平均只比输掉的球队垒上数多出2.88。

    5.7.4 其他生效领域

    有人建议,当我支持的堪萨斯城皇家队参赛时,如果我想超过一半的时间是正确的,我应该总是预测他们输掉。是的,是的,这很搞笑。

    5.7.5 无效领域

    我建议你在赛程的前几个小时尝试,因为如果你在第九局打开收音机,那么这个方法的准确度会变低,根据棒球规则,如果主场队在第九局前处于领先,他们就不用击球。他们赢了。比赛结束。因为主场队往往比客场队赢得更多,这意味着获胜的球队常常在第九局从不击球。

    这就提出了这种预测方法的一个有趣的变化,只适用于第九局。比赛进行到第九局时打开广播,如果你支持的球队正在击球,或许这并不是一件好事。芝加哥小熊队的数据显示,获胜的球队偶尔比他们的对手有更少的垒上数,这可以通过这样的事实来进行部分解释:获胜的球队有时只在前八局里击球。

    这种方法并不适用于所有的体育运动。例如,在篮球比赛中,人们不认为持球时间和得分正相关,在激烈比赛中,快速进球的球队甚至导致相关性为负。另一方面,在足球场上,持球时间被认为是一个关键的能力表现指标,通常和胜利相关。