11-6 从2个信息可以消去不可能的情况

在设定上述概率的前提下,过滤器对邮件进行扫描,通过检查是否附带“链接”、是否含有“幽会”一词这两个条件,来计算该邮件为垃圾邮件的概率。图表11-8中共有8种可能性,而只有最上面的2种有可能是垃圾邮件的。于是,留下最上面的2个,排除掉下面的6个,结果如图表11-9 所示。

11-6 从2个信息可以消去不可能的情况 - 图1 图表11-9 扫描之后只剩下两种可能性

总之,过滤器所检查的邮件分为两种情况,一种是垃圾邮件(附带链接且含有“幽会”),一种是正常邮件(附带链接且含有“幽会”)。两者的比例关系,也就是图中的概率之比。因此,接下来通过标准化条件,可以计算出附带链接且含有“幽会”一词时的后验概率。

(垃圾邮件的后验概率):(正常邮件的后验概率)

=0.5×0.6×0.4:0.5×0.2×0.05

=0.6×0.4:0.2×0.05

=0.24:0.01

=24:1

=24/25:1/25

通过标准化条件运算,在附带链接且含有“幽会”一词的情况下,(垃圾邮件的后验概率)=24/25=0.96

假若在垃圾邮件过滤器上设定一种情况:如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱。那么,在这种情况下,这封邮件就会被移动到垃圾箱,而不会出现在收件箱中。

在获得以上两条信息的前提下,通过贝叶斯推理的过程,如图表11-10 所示。

11-6 从2个信息可以消去不可能的情况 - 图2 图表11-10 扫描之前与扫描两次之后

如图所示,使用2条信息推算出的结论,比起仅仅使用1条信息来推算,检索出垃圾邮件的概率会更高。