11-3　扫描字句与条件概率的设定

接下来要做的是，设定一些在垃圾邮件里常见的字句及特征。但需要注意的是，“贴有其他网页的URL链接”这一特征，是电脑判断一封邮件疑似为垃圾邮件的关键点。实际上，大多垃圾邮件的目的确实是引诱读者访问其他网址，因而附带有URL的链接。因此，如果符合以下稳固关系，即：

垃圾邮件→URL上有链接

正常邮件→URL上无链接

那么就可以排除掉所有的垃圾邮件。当然，按照5-3推论中的解说，也可以通过逆向思维做出如下判断：

URL上有链接→垃圾邮件

URL上无链接→正常邮件

然而遗憾的是，多多少少会有那么几封垃圾邮件中并没有其他链接，而来自朋友和公司的邮件中却附带链接，这就难办了。在这种情况下，就必须使用5-3中提到的概率推论相关的“可能性”判断方法，即：

URL上有链接→可能是垃圾邮件

URL上无链接→可能是正常邮件

对于这种“可能性”进行数值评价，需要运用到贝叶斯推理。

因此，就很有必要设定：垃圾邮件中附带URL的比例，以及正常邮件中附带URL的比例各占多少。为了方便计算，以下采用虚构的数据来进行简单运算，如图表11-2、11-3 所示。

图表11-2　附带链接的条件概率

图表11-3　4种互不相同的可能性

虽然之前已经进行过说明，但为了保险起见，下面，再一次对图表11-3进行讲解。

现在，过滤器要对刚刚收到的一封邮件进行检查。此时的过滤器将会面临四种情况。首先，把收到邮件的可能性分为垃圾邮件和正常邮件两类。然后，根据有无链接，再各自分为两类。所以，一共存在四种可能性。接下来，再进一步判定究竟哪一种可能性是符合实际的。