12-3 通过信息②进行贝叶斯更新
那么,像图表12-3所示的那样,使用第二次设定的各个类别的先验概率,检索出第二条信息——含有“幽会”一词(称为“信息②”),并计算后验概率。这便是之前已经多次试验过的、通过一条信息进行的贝叶斯推理,因而很容易理解和操作。
图表12-4 使用信息②,通过贝叶斯推理计算出后验概率
如图表12-4 所示,互不相同的可能性共有4种,那么下一步就是进行乘法运算,得出每种可能性的概率。事实上,由于已经检索到了“幽会”一词,那么便可以排除掉其中不含“幽会”的两种情况,留下剩余的两种情况。接下来,使这个概率的比满足标准化条件(相加之和为1)。于是,在检索到“幽会”一词的情况下,后验概率为:
(垃圾邮件的后验概率):(正常邮件的后验概率)
=0.75×0.4:0.25×0.05
=3×8:1×1
=24:1
=
这个结果,和上一讲中使用两条信息(这里的信息①和信息②)进行的贝叶斯推理得出后验概率的结果,是完全一致的。
那么,为什么这两个结果会一致呢?难道只是偶然的吗?事实上并非如此,这样的结果是必然的,而原因却出乎意料地简单。
图表12-5 依据两条信息进行修改的结果和逐步修改的结果一致的原因
下面来看图表12-5 。上半部分,即上一讲中通过两条信息(这里的信息①和信息②)一次性计算出后验概率时使用的图。
而下半部分,是本讲中图表12-2中的图。它是通过信息①,逐个修改各个类别的概率而得出的后验概率的比例。
需要确认的是:下方的长方形中的乘法运算,与上方的长方形中的“3个数的乘积”中的“前2个数的乘积”是一致的。即把下方的比例关系作为各个类别之比,然后,通过信息②进行贝叶斯推理,如图表12-4所示,这样就会出现和上方的乘法运算完全相同的计算方式。这样便出现了“把通过信息①得出的后验概率设为先验概率,然后通过信息②,再求出后验概率”和“通过同时利用信息①和信息②求出的后验概率”是一致的 奇妙结果。
总而言之,利用乘法运算求出的概率,只要能够顺利运行,就能够得出这样的特性。
