附录 构建你自己的四格表

当想到合理的医疗推理时,我们常常会面临许多罕见的疾病,即使检查结果呈阳性也并不意味着你已经患上了这种疾病。许多药物产品的疗效都很低,它们的副作用反而比所承诺的疗效大很多倍。

四格表可以让我们很容易地计算出贝叶斯概率模型,例如,这些问题的答案:“如果检查结果呈阳性,我患上这种疾病的概率是多少?”或“如果我有这种症状,这种药能帮到我的概率为多少呢?”

在这里,我将引用第6章中所虚构的模糊症的例子。让我们一起回忆一下已知信息:

你的血检结果呈阳性,显示你可能已经患上某种虚拟的模糊症。

模糊症的基础概率为1/10000或者0.0001。

模糊症用药为chlorohydroxelene,可能会产生5%或者0.05的副作用。

模糊症的血检结果错误的概率为2%或者0.02。

现在的问题是,你究竟是否应该服用这种药物?

我们先画一个表格,标出行和列。

附录表1 检查结果四格表

470-i

表格内的小格子让我们将所有数据划分成四个互不独立的大类:

已患病的人检查结果为阳性(表格左上角),我们称为正确识别;

已患病的人检查结果为阴性(表格右上角),我们称为漏报或虚假阴性;

未患病的人检查结果为阳性(表格左下角),我们称为虚假阳性;

未患病的人检查结果为阴性(表格右下角),我们称为正确拒绝。

附录表2 检查结果分类四格表

470-2-i

现在,我们开始用已知的事实填充表格。基础概率为1/10000。在表格外的右下角,我们填写出合计10000。我将其称为人数表格,因为,这些数字可以告诉我们,总人数为多少(在这里,我们可以填写全美总人口3.2亿,然后算出每年的患病病例报告——32000,但这里,我只写出了更小的事件概率,因为这样更容易计算)。

附录表3 人数表格

471-i

在这个表格的帮助下,我们需要计算出其他表格的数字,不仅有表格内的,还有表格外的。在10000人中,我知道有1人患上了模糊症,但我们不知道患者的检查结果是怎样的,所以,我们在右边填写了数字1,符合“疾病:是”。

附录表4 填入患病人数后的四格表

471-2-i

表格的设计方式,数字从上到下、从左至右都应该符合“边际总和法”,这是合乎逻辑的。如果患病人数是1,我们所考虑的总数量为10000,我们可以得出总人数中未患病的人数为:10000–1=9999。因此,我们现在可以继续填充表格。

附录表5 填入未患病人数后的四格表

472-i

医生告诉我们(之前已经探讨过),检查不准确的概率为2%。我们将2%这个数字算进右边。在999位未患病的人中,有2%的人得到了错误的诊断。也就是说,尽管他们没有患病,检查结果仍然会显示他们已经患病(正如左下角所说的虚假阳性)。我们计算出2%×9999=199.98,得数大约为200。

附录表6 填入检查结果为阳性没有患病人数后的四格表

472-2-i

现在将行列数字相加,我们可以得到没有患病且结果为阴性的人的数量——正确拒绝,也就是9999–200=9799。

附录表7 填入没有患病且检查结果为阴性人数后的四格表

473-i

现在,我们开始填充误诊,即2%的虚假阴性。虚假阴性意味着你已经患上了这种疾病,但检查结果显示你并未患病——他们未出右上角。只有1人患病(正如我们在右边边际看到的那样)。我们计算出2%×1=0.02,如果四舍五入,我们取0。

附录表8 填入虚假阴性人数后的四格表

473-2-i

当然,这样我们就可以计算出剩下方格中的数字为1(我们用边际总数1减去右上角的0,得出剩下方格中的数字——记住,每行每列的数字都需要相加)。

附录表9 填入正确识别人数后的四格表

474-i

现在,为了表格的完整性,我们将数字从上至下相加,得到底部边际数字——检查结果为阳性的人的数量为该列的总和:1+200=201。那么,检查结果为阴性的人的总数为0+9799=9799。

附录表10 计算总和后的四格表

474-2-i

从现在开始,我们就能解决第6章中的问题了。

问题1:如果检查结果呈阳性,我患上这种疾病的概率是多少?

通常,我们会给“如果”这个词加上符号“|”,概率加上符号p ,构建这样的等式:

1.1.p(你已经患病|检查结果为阳性)

这种结构更方便,因为它可以提示我们这句话的前半部分——符号“|”之前的为分数的分子,符号“|”之后的为分母。

为了回答第一个问题,我们只看检查结果为阳性的那一列,即左列。201个检查结果为阳性的人中,只有1人真的患病。那么问题1的答案为1/201,也就是0.49%。

问题2.如果你已经患病,那么你的检查结果为阳性的概率为多少?

2.1p(你的检查结果为阳性|你已经患病)

现在,我们看着顶上的一行,构建分数1/1得出结果,如果你真的确实已经患病,你的检查结果为阳性的概率为100%。

你一定还记得我虚拟的药物——chlorohydroxelene,它的副作用概率为20%。我们将每一个检查结果为阳性的人——他们中的201人——20%或者40,视为可能会存在药物副作用的人。记住,只有1个人确实已经患病,所以药物副作用的概率要比疗效的概率大40倍。

在第6章我所谈到的两个案例——模糊症和蓝脸症中,即使你的检查结果为阳性,你也不一定已经患病。当然,如果你已经患病,选择正确的药物是尤其重要的。你应该怎样做呢?

你可以检查两次。在这里,我们将运用概率的乘法法则,假定检查的结果是独立的。也就是说,不管任何可能导致你得到不正确结果的错误都是随机的——它跟实验室里的人已经决定了这里面有你不一样——所以,如果你曾经得到过一个不正确的结果,你再一次得到错误结果的概率也不会降低。回想一下,我曾经说过检查的错误率为2%。那么,连续两次错误的概率为2%×2%,或0.0004。如果你喜欢用分数,那么概率为1/50,1/50×1/50=1/2500。但即使这项统计,也没有考虑到基础概率:这是一种罕见的疾病,而这才是我们这节附录所要讲述的重点。

当然,对我们有帮助的事情是构建一个能够回答“如果我连续两次检查结果都为阳性,那么我患病的概率为多少”这一问题的四格表。

当我们开始审视模糊症的时候,我们有一大堆数字,然后将其填入四格表;这让我们可以更好地计算出已经更新的概率。贝叶斯推理的其中一个特征是,你可以将已经更新的概率放入新的表格,然后再更新。随着不断更新信息,你可以构建新的表格,得出更准确的估算。

当我们将数字都输入表格之后,我们得到了这样的表格:

附录表11 填入连续两次检查都是阳性数据后的四格表

476-i

从表格中,我们得知:

检查结果为阳性的人数为:201;

检查结果为阳性且患病的人数:1;

检查结果为阳性且未患病的人数:200。

我们需要注意,现在我们只看到了表格的一半:检查结果为阳性的那一半。这是因为我们想要回答的问题:假设你的检查结果为阳性,如果我连续两次检查结果都为阳性,那么我患病的概率为多少?

现在,我们用这些信息构建一个新的表格。第二次检查的结果可能为阳性,也可能为阴性,你可能已经患病,也可能并未患病。我们不再需要看总人数10000,我们只需要看10000人中第一次检查结果为阳性的人——201人。所以我们将201填入右下角。

附录表12 填入第二次检查结果为阳性人数后的四格表

477-i

从上面的已知信息中,我们还可以填入一些其他信息。我们知道已患病与未患病的人的数量,所以我们可以填完表格右侧。

附录表13 填充完整表格右侧数字后的四格表

477-2-i

现在,我们回到所给出的原始信息,检查出错的概率为2%。某个确实已经患病的人,会有2%的概率被误诊,有98%的概率不会误诊:1×2%=0.02。我们四舍五入为0——这是呈现虚假阴性的数字(他们确实已经患病,但这是第二次误诊)。1的98%接近1。

附录表14 填入虚假阴性数字后的四格表

478-i

现在,我们将2%的误诊率应用于那些并未患病的人。200个没有患病的人中会有2%的人得到阳性检查结果(尽管他们很健康),即200×2%=4。所以,表格右下角框内正确诊断的数量为196。

附录表15 填入正确诊断人数后的四格表

478-2-i

我们可以竖列相加得到边际总和,这样,我们需要计算出新的概率。

附录表16 填入各列总和后的四格表

479-i

跟之前一样,我们计算左侧一栏,因为我们只对那些第二次检查结果为阳性的人感兴趣。

在第二次检查结果为阳性的5人中,只有一个人确实是真的患病:1/5=0.20。也就是说,即使你连续两次检查结果都为阳性,这种疾病仍然很罕见。你患病的概率仅仅只有20%,你没有患病的概率为80%。

那么副作用呢?如果我们假定连续两次结果为阳性的人,服用我所虚构的chlorohydroxelene,产生副作用的概率为5%,那么5个人的5%,也就是0.25的人将会产生副作用。所以,尽管你不太可能患病,但你头发掉光的概率也不太可能。在5个接受治疗的患者中,只有1人能够治愈(因为只有一个人真正确实已经患病),0.25的人会产生副作用。在这种情况下的两个检查中,被治愈的概率比产生副作用的概率高4倍,这就跟我们之前所看到的一样(如果你不习惯用0.25来表示人数,你只需要将以上每个数字都乘以4即可)。

我们可以进一步运用贝叶斯统计。假设一项新公布的研究显示:如果你是女性,你患病的概率比男性高10倍。你可以画一个新的表格,并输入信息,完善你真的患病的概率。

现实生活中,概率的计算远远不仅运用于医学领域。我曾经询问过拥有五家赌场的史蒂夫·永利(在他的拉斯维加斯永利安可酒店,以及澳门永利安可皇家酒店):“当看见顾客提着一大袋钱离开的时候,你有没有那么一点点难受呢?”

“我乐于看见这种情形,这会给赌场增添许多乐趣。”

“真的吗?这都是你的钱啊。有时,他们可能会带走好几百万美元啊!”

“首先,你得知道,我赚的比投入的多。其次,我们总是能将资金拿回来。这些年里,我并没有看见过任何一个真正的大赢家。他们来到赌场,玩一些他们赢过的游戏,我们经常能将钱赚回来。他们会来到这里真正且首要的原因,其实是比起钱,他们更喜欢这个游戏,这就跟大多数沉迷于高尔夫或者红酒的人一样。赢钱为他们提供了游戏资金,他们不需要填写支票。如果有1美元,他们会损失100美分,然后赚回99美分,而这1美分正是我们的利润。”

赌场下注的期望值总是对庄家有利。现在,那些提着很多钱离开赌场,却总是会回到赌场输光所有钱的人都有一种赌博心态。我们可以暂且不考虑这一因素,即使所有的赢家都没有再回来过,从长远来看,还是对庄家有利。这使我们延长一些诸如激光打印机、计算机、吸尘器和DVD播放器之类的保修期。大型折扣零售商都会真正推动这些保证,他们也正是利用了我们不愿花大价钱维修刚刚购买的物品的心理。他们以高价向你承诺“无忧免修”,但请不要犯错——这不是零售商所提供的慷慨的服务,这只是他们赚钱的方式而已。对于许多零售商来说,真正的利润不在于你所购买的物品,而是他们所提供的保修承诺。

对你而言,这种保修承诺大多都不是一笔很大的开销,但却是“庄家”丰厚的利润。如果你使用它的概率为10%,你的维修费用将省去300美元,那么它的期待价值就是30美元。如果他们收你90美元,那么超出期待价值的60美元当然就是零售商的利润。他们会尝试用各种理由说服你,例如,“如果这个坏了,维修费至少为200美元,但保修服务只需花费你90美元,这样你就赚了。”但不要被他们欺骗了。只有当你真正成为那10%的真正需要它的人时,你才真正赚了。大多数时候,他们才是赢家。

医学决策却不是这样。你可以为各种方案的利弊算出期待价值。当然,这些期待价值的计算都有严格的数学计算方式——这些应急表一点也不神秘。很多人喜欢这些表格,只是因为它们可以为他们提供一种启发式的组织信息的方式,可以让简单的数字变得可视化,这反过来又可以帮助你发现可能会犯的任何错误。事实上,这本书中所提到的很多关于系统组织信息的意见都可以帮助你在犯错时发现错误,或者帮你弥补已经犯下的错误。