5.6 预测比赛冠军

    借助提供的相关信息,我们有可能预测任何结果,尤其是体育领域的结果。有了多元回归技术和一个小软件,你就可以在比赛开始前猜测谁是赢家。诀窍在于选择正确的预测变量。

    对相关性[Hack #11]的常见用法是找出两个变量共享信息的程度,或者更专业点,是两个变量之间方差的共享程度。

    5.6 预测比赛冠军 - 图1共享方差是一个数学术语,用来描述两个变量反映的冗余信息量。当大量的方差被共享时,预测是容易且准确的,因为对一个变量的认知就能导致对第二个变量的认知。共享方差通过对相关性进行平方来估计。

    但是,我们的日常世界不止由单一变量预测另一个变量组成。事实上,在大多数情况下,用于预测特定结果的变量存在几个或多个。在这里,我们不处理单一变量对另外一个变量的预测,而是处理多个变量对一个变量的预测。这种工具称为多元回归(因为有多个预测变量)。

    资深的体育赌徒、博彩公司和赌场运营者都熟悉多元回归,或者至少他们应该熟悉。有如此多的关于体育队伍的信息,以至于我们几乎能确定所有的变量,按照正确的组合方式,我们就可以相当准确地预测哪支球队会获胜。

    投注职业足球是所有的赌博行为(至少我听到的是这样)中最常见的一种。这个技巧展示了如何收集数据,并使用多元回归预测足球赛的冠军。本例预测的是谁会赢得超级杯——全国足球联赛的冠军。

    5.6.1 选择预测变量

    第一步是构建模型(预测因子及其权重,你会用它们来进行预测)。对于足球,有很多关于球队过往成绩和球员特点的保存资料和统计数据。有些用来预测未来表现(例如,过往成绩)是合理的,而有些则不合理(例如,吉祥物的可爱度)。但是,赢钱的机会,是一个强大的动力,所以我会花时间和精力来收集所有我能收集到的关于每支球队和每一场比赛的统计资料。关键是找到与赢得超级杯非常相关的变量。

    我们假设你已经做完了相关研究,发现有6个变量与球队输赢有关。有些变量是合理的,有些不是合理的。你对获得最准确的真实生活预测感兴趣,所以甚至愿意将厨房水槽包含进去,如果它起作用的话。说明确点,你记录特定一支球队出现在超级杯中的年份,然后收集从那年起那支球队的数据。

    想象一下,你已经发现,依据往年成绩和30支球队的特征,以下你感兴趣的变量可能在结果预测上是有用的。你在模型中使用的变量,以感兴趣的结果开始,也就是,在数据收集的那年球队是否赢得超级杯(是=1,否=2)?

    你发现下面的变量和结果相关:

    • 赛季期间轻松获胜的数量(超过9分);
    • 本赛季的平均出场数;
    • 每场出售热狗的平均数;
    • 团队佳得乐饮料的平均温度;
    • 防守线球员的平均体重。

    当你以真实的数据进行分析时,你可能会发现不同的潜在预测搭配。

    5.6.2 将数据输入电子表格

    社会科学家经常使用统计软件,如SPSS或SAS,但在这个例子中,我使用Excel工作表以及Excel非常酷的数据分析工具包(和回归工具)。我输入了一些虚构但符合实际的数据到表5-10所示的电子表格中。

    表5-10:超级杯预测变量

    队伍 是否赢得超级杯 轻松获胜次数 出场数 热狗数 佳得乐 体重
    A 1 11 56 533 4798 56 276
    B 2 9 44 543 5715 76 311
    C 1 8 45 543 9753 45 315
    D 1 6 45 768 8020 46 311
    E 1 8 76 786 5395 56 256
    F 1 11 56 533 1054 67 277
    G 2 9 56 554 750 76 256
    H 2 12 44 675 6576 77 254
    I 2 11 56 667 9187 77 287
    J 2 10 65 545 4533 87 301
    K 2 12 78 756 1963 86 243

    5.6 预测比赛冠军 - 图2什么?你以为我会告诉你一个预测足球比赛结果的真正秘密公式?我只是向你展示如何制作你自己的预测公式。我会自己留着的,非常感谢你!

    表5-10显示了我收集的虚构的30行数据的一部分,30行数据代表我统计分析中用到的30个例子。数据的行数越多,你可以获取的例子越多,最终的预测也会越准确。

    5.6.3 建立回归方程

    你或许还记得高中时代的一个公式,简单的直线公式看起来像这样:

    5.6 预测比赛冠军 - 图3

    这个方程由以下变量组成:

    Y' 变量Y上的预测分数

    b 该直线的斜率

    X 分数的单一预测源

    a 截距(直线穿越Y或垂直轴的地方)

    因此,举例来说,如果你想用体重预测人类的高度,可以通过一组数据得出各个值,然后创建公式,你可能会得到看起来像这样的东西:

    5.6 预测比赛冠军 - 图4

    这意味着,如果你的体重(X变量)是125英镑,预测结果就是你大约高64英寸,或大约高5英尺3英寸。

    但是,当我们有多个预测变量时,事情变得更有趣了。我们有了一个较长的系列预测(多个X)和权重(多个b)。

    我在SPSS统计软件里使用该数据运行多元回归分析,你也可以使用Excel得到大部分相同的信息(见补充内容“在Excel中获得回归信息”)。

    在Excel中获得回归信息
    有两种方法可使用Excel来获得统计回归信息。首先,你可以使用SLOPE和INTERCEPT函数,你可以从Insert-Function找到。选择函数并输入参数(数据所在的单元格),Excel返回这些值,它允许你插入已知的值并预测其他的值。此方法在只有一个预测变量时效果最好。
    你也可以使用数据分析工具库中的Regression选项,这是一个Excel加载项(你可能需要安装)。使用工具菜单上的这个选项时,你可以采用F检验测试回归系数的显著性,F检验类似于t统计检验[Hack #17]。

    结果(即输出)如表5-11和表5-12所示。让我们看看哪个变量能最好地协助我们预测一支球队是否会赢得超级杯。

    表5-11:回归统计

    多元R R2 观察量
    0.8483 0.7196 30

    表5-12:回归方程

    变量 系数 t统计值 P值
    截距 -0.784 -1.010 0.323
    轻松获胜 0.119 4.274 0.000
    出场 0.000 -0.822 0.416
    卖出热狗 0.000 1.043 0.308
    佳得乐 0.013 2.457 0.022
    体重 0.001 0.580 0.567

    表5-12显示了方程的5个变量的系数(权重),用于表示每一个预测超级杯赢家的变量的表现情况。例如,和“轻松获胜”这一变量的相关系数是0.119。

    如果我们将所有这些信息结合进一个大的方程来预测超级杯的结果,能得到如下模型:

    5.6 预测比赛冠军 - 图5

    所以,每一个预测变量(从 到 )都有对应的具体权重(式中的b或结果中的系数)。

    现在,把单词代入相同的公式:

    b×获胜+b×平均出场+b×热狗+b×温度+b×体重+a

    使用表5-12所示输出的数据,下面是真正的实况回归方程:

    5.6 预测比赛冠军 - 图6

    5.6.4 解释和运用回归方程

    试想一下,对所有输入到电子表格中的行数据使用这个方程。超级杯的实际结果和预测结果有相当高的相关性。我知道这是因为表5-11显示输出的“多元R”部分,显示了相当高的相关性。0.84接近于1,这是你能得到的最高的相关。

    5.6 预测比赛冠军 - 图7“R2”为0.72,这就是我们之前谈到的共享方差的比例。

    这是什么意思?这些预测变量的组合是判断一支球队是否会赢得超级杯的相当有效的方法。万无一失吗?当然不是,因为这些组合变量并没有完美地预测结果,但它确实做了一个非常扎实的工作。

    那么,举例说今年Denver Cannonball的数据点如表5-13所示。

    表5-13:Denver Cannonball数据

    变  量
    轻松获胜 13
    出场数 35 678
    热狗 4567
    佳得乐 65
    体重 267

    将这些数据插入前面所示的公式,下面就是我们得到的关于Y的预测:

    5.6 预测比赛冠军 - 图8

    Y的最终值是1.875,更接近2(意味着没有预测出他们会夺冠)而不是1(意味着他们预计将获胜)。

    一套好的预测指标有哪些关键点?

    • 所有的预测都应该是相互独立的(如果可能的话要完全独立),因为你希望在对预测的理解上,它们能提供独特的贡献。
    • 每个预测变量应该尽可能高地和你预测的结果相关。

    5.6.5 改进你的回归方程

    仔细研究这个Hack产生的方程,可发现大部分的预测能力只来自于两个变量:轻松获胜的数量和球队的佳得乐温度。另外,许多预测变量的权重为零,这意味着你不需要它们。你可以删除这些无用的变量(出场数和出售的热狗数)以简化你的公式。事实上,只收集轻松获胜数和佳得乐温度数据就足以在我们的例子中作出相当准确的预测。

    ——尼尔·萨尔金德