11-5 获得第2条信息后,可能性随之变为8种

通过上一节中我们了解到,即使在获得了“附带链接”的信息之后,也只能初步判断这封邮件极有可能是垃圾邮件,但不能确定它一定会被移动到垃圾箱中。因此,过滤器会通过添加其他的信息,再次进行判断。现在我们添加一个条件:把“幽会”一词作为关键词来进行检索。“幽会”一词出现的概率和不出现的概率,如图表11-6 所示。

图表11-6 附带链接的条件概率

类别 有幽会的概率 无幽会的概率
垃圾邮件 0.4 0.6
正常邮件 0.05 0.95

此时,过滤器在扫描邮件时,除了“附带链接”之外,又增加了含有“幽会”一词的条件,通过这两个条件来判别垃圾邮件。

首先,在图表11-2共体现了两种可能性,而在图表11-7 中,这两种可能性各自又分为4种可能性,所以共计有8种可能性,这8种可能性各自的概率如图表11-7的下部所示。

11-5 获得第2条信息后,可能性随之变为8种 - 图1 图表11-7 附带链接的条件概率

要注意的是,垃圾邮件和正常邮件的概率分列在两个表中。这样做的原因是,被检查邮件是垃圾邮件或是正常邮件的两种情况下,概率是完全不同的。并且,在上述两种情况下,被扫描的特征(附带链接或不带链接、含有“幽会”或不含“幽会”)出现的概率也是完全不同的。因此,必须分开计算各自的概率。

上述两种情况下,共有8种可能性,每一种的概率分别列出,如图表11-8 所示。

11-5 获得第2条信息后,可能性随之变为8种 - 图2 图表11-8 8种互不相同的可能性

图表11-8的左列(垃圾邮件列)对应图表11-7正中的概率表,右列(正常邮件列)对应图表11-7最下面的概率表。

在这里,请大家进一步确认一个问题:类别的概率0.5也要乘进去。原因在于,它是异于独立性而存在的。而这一点是条件概率的特征,具体的相关内容会在第15讲中进行讲解,此处暂且不多作讨论。