11-3 扫描字句与条件概率的设定
接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。但需要注意的是,“贴有其他网页的URL链接”这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。实际上,大多垃圾邮件的目的确实是引诱读者访问其他网址,因而附带有URL的链接。因此,如果符合以下稳固关系,即:
垃圾邮件→URL上有链接
正常邮件→URL上无链接
那么就可以排除掉所有的垃圾邮件。当然,按照5-3推论中的解说,也可以通过逆向思维做出如下判断:
URL上有链接→垃圾邮件
URL上无链接→正常邮件
然而遗憾的是,多多少少会有那么几封垃圾邮件中并没有其他链接,而来自朋友和公司的邮件中却附带链接,这就难办了。在这种情况下,就必须使用5-3中提到的概率推论相关的“可能性”判断方法,即:
URL上有链接→可能是垃圾邮件
URL上无链接→可能是正常邮件
对于这种“可能性”进行数值评价,需要运用到贝叶斯推理。
因此,就很有必要设定:垃圾邮件中附带URL的比例,以及正常邮件中附带URL的比例各占多少。为了方便计算,以下采用虚构的数据来进行简单运算,如图表11-2、11-3 所示。
图表11-2 附带链接的条件概率
| 类别 | 附带链接的概率 | 无链接的概率 |
| 垃圾邮件 | 0.6 | 0.4 |
| 正常邮件 | 0.2 | 0.8 |
图表11-3 4种互不相同的可能性
虽然之前已经进行过说明,但为了保险起见,下面,再一次对图表11-3进行讲解。
现在,过滤器要对刚刚收到的一封邮件进行检查。此时的过滤器将会面临四种情况。首先,把收到邮件的可能性分为垃圾邮件和正常邮件两类。然后,根据有无链接,再各自分为两类。所以,一共存在四种可能性。接下来,再进一步判定究竟哪一种可能性是符合实际的。
