11-5　获得第2条信息后，可能性随之变为8种

11-5　获得第2条信息后，可能性随之变为8种

通过上一节中我们了解到，即使在获得了“附带链接”的信息之后，也只能初步判断这封邮件极有可能是垃圾邮件，但不能确定它一定会被移动到垃圾箱中。因此，过滤器会通过添加其他的信息，再次进行判断。现在我们添加一个条件：把“幽会”一词作为关键词来进行检索。“幽会”一词出现的概率和不出现的概率，如图表11-6 所示。

图表11-6　附带链接的条件概率

类别	有幽会的概率	无幽会的概率
垃圾邮件	0.4	0.6
正常邮件	0.05	0.95

此时，过滤器在扫描邮件时，除了“附带链接”之外，又增加了含有“幽会”一词的条件，通过这两个条件来判别垃圾邮件。

首先，在图表11-2共体现了两种可能性，而在图表11-7 中，这两种可能性各自又分为4种可能性，所以共计有8种可能性，这8种可能性各自的概率如图表11-7的下部所示。

图表11-7　附带链接的条件概率

要注意的是，垃圾邮件和正常邮件的概率分列在两个表中。这样做的原因是，被检查邮件是垃圾邮件或是正常邮件的两种情况下，概率是完全不同的。并且，在上述两种情况下，被扫描的特征（附带链接或不带链接、含有“幽会”或不含“幽会”）出现的概率也是完全不同的。因此，必须分开计算各自的概率。

上述两种情况下，共有8种可能性，每一种的概率分别列出，如图表11-8 所示。

图表11-8　8种互不相同的可能性

图表11-8的左列（垃圾邮件列）对应图表11-7正中的概率表，右列（正常邮件列）对应图表11-7最下面的概率表。

在这里，请大家进一步确认一个问题：类别的概率0.5也要乘进去。原因在于，它是异于独立性而存在的。而这一点是条件概率的特征，具体的相关内容会在第15讲中进行讲解，此处暂且不多作讨论。

11-5 获得第2条信息后，可能性随之变为8种