6.5 物归其主
文体测算(Stylometrics)作为一种统计方法,可标识出定义作者风格的相关维度。它采用因素分析的方法来判断谁是作品的作者。
豪-马奇教授面临着一个问题。他最好的两名学生现在都坐在他的办公室里,希望能解决一个争议。豪马奇博士将保罗的期末论文评为A+(这是一篇探讨巧克力牛奶重要性的历史论文),但问题是,丽莎声称那篇论文是她写的。这构成了抄袭指控!两人都是好学生,在过去都为教授写了许多高质量的论文。所以,判断谁是真正的作者并不容易,意识到最喜欢的学生之一是个骗子也不容易。
幸好,相比他担任的州立社区学院和货运学校兼职教授一职,作为优秀哲学博士的多年经验使他能够想出更有效的方法。除了一些不明显的统计爱好,豪马奇博士还涉足文体测算领域,这是一种对文字作品风格分类的统计方法。该方法也可用于识别匿名作者。当有好几种可能性或者若干嫌疑人以供选择时,当嫌疑人的典型写作风格已知并已量化时,该方法的效果最好。让我们看着心碎的教授如何应用这些技术找到真正的作者。
6.5.1 建立模型
首先,豪-马奇博士让保罗和丽莎带来所有他们在过去写的、没有争议的其他论文。仅用短短几分钟,这些论文就被扫描到计算机中,并形成两位作者使用的不同单词的数据库。
或者,可以将论文以电子版的形式发送给教授,这样就无需扫描了;这和故事没有一点关系,那你为什么要问我呢?
第一步分析,将两位作者写的所有单词放在一起。豪-马奇博士数出每个单词的使用频率,在单词结合数据库中确定最常使用的50~100个单词。这些单词作为项目或关键变量构成因素分析(factor analysis)所用的数据。因素分析是这样一个统计方法:它着眼于组间变量的相关性[Hack #11],并识别出一组群变量,这组群变量的彼此相关性比它们和其他变量的相关性更强。不管这些变量的共同之处是什么,它们都被假定共享一个因素、部分或维度。
便于我们故事的开展,我只列出10个豪马奇博士认定的两位作者最常用的词。表6-14显示了这些词和它们的使用频率。当查看保罗和丽莎写的所有词时,“the”的使用频率为4.2%,“weasel”的使用频率为1%,以此类推。
表6-14:保罗和丽莎的常用词及其频率
| 词 | 频率 |
|---|---|
| the | 4.2% |
| and | 2.1% |
| to | 1.8% |
| a或an | 1.2% |
| weasel | 1.0% |
| of | 0.8% |
| in | 0.8% |
| that | 0.5% |
| it | 0.4% |
| not | 0.2% |
这些词作为变量试图找出描述一个或多个风格维度的潜在因素。保罗和丽莎的风格可能体现在这些维度的不同地方。可能只有一个维度或因素导致这些词用法各异,也可能有很多维度或因素。一旦确定这些由相关变量共同定义的维度或维度上的载荷,任何写作样本都可以被放置在由因素搭建出框架的理论空间里。
豪-马奇博士进行因素分析的数据来自作品样本的各部分,每部分包含500个单词。每部分在每个单词变量上都有一个得分。得分是这个单词在该段落使用的次数。表6-15展示了豪-马奇博士收集的数据例子。
表6-15:研究数据的样本
| the | and | to | a/an | weasel | of | in | that | it | not | |
|---|---|---|---|---|---|---|---|---|---|---|
| 第1部分 | 21 | 8 | 11 | 5 | 4 | 0 | 0 | 1 | 0 | 2 |
| 第2部分 | 10 | 7 | 15 | 5 | 2 | 10 | 1 | 0 | 0 | 0 |
| 第3部分 | 5 | 5 | 5 | 2 | 6 | 12 | 2 | 4 | 1 | 0 |
| 第4部分 | 0 | 2 | 4 | 3 | 1 | 4 | 6 | 8 | 1 | 0 |
| 第5部分 | 4 | 11 | 16 | 2 | 0 | 3 | 5 | 0 | 3 | 1 |
表6-15中,分数表示每个单词出现在文本部分的次数。
6.5.2 因素分析
接着,豪-马奇博士进行因素分析,因素分析是一个相当复杂的数学过程,所以现在基本使用计算机来完成,与此同时,研究人员根据相关理论在分析过程中的不同时刻作出决策。基本上,要不断分析变量之间的关系,直到发现少数变量组似乎可以尽可能多地解释数据的变异性时,因素才被确定下来。每个分组变量共享的共性提供了定义该因素的数学素材。一旦因素被选择,任何观测(在本例中是文本样本)都能得到因素得分,然后以因素分数为坐标,将其置于那个理论空间里。
在本例中,分析表明,有两个因素很好地描述了样本文本。因素1通过使用的单词来定义,比如一端使用“a/an”而另一端使用“of ”和“in”。换句话说,文本部分基于他们使用冠词的频次而不同,有较高冠词使用频率的部分往往使用较少的介词。因素2通过“weasel”一词的使用频率来定义。
在探索性因素分析中,通常研究者对发现和命名能解释人类行为和特征的基本结构(即无形的特征)感兴趣。不过,在本例中,豪马奇教授只对定义维度(例如,单词使用)感兴趣,这些维度是基于变量的,且能在两端对变量进行锚定。他没兴趣搞清楚为什么那些经常出现单词“the”的文本也也往包含高频率的“a”或“an”。他同样对“weasel”一词的使用为什么能够区分不同的写作样本不感兴趣。对他而言,他只需要知道这两个因素提供了一对良好的坐标轴,定位出两位作者在他们样本中使用的所有单词的位置。
计算保罗和丽莎样本论文的因素得分,很明显,结果表明两位作家有不同的风格。丽莎比保罗更频繁地使用“weasel”这个词,她的论文在因素2上得分高。丽莎的论文也倾向于高频使用冠词,在因素1上的分数也非常高。另一方面,保罗的论文往往避免使用“weasel”这个词,而且倾向使用因素1末端的介词。
仅使用单词来描述或许很难把握,所以我们借助一个图例画一幅图来演示样品文本的位置。图6-5显示了这两个因素:定义它们的单词使用,还有不同写作样本载荷在两个因素的位置。为便于讨论,图6-5只显示了少数的写作样本,只标出了表6-14和表6-15中的10个词。图中同样标出了那篇有争议的论文在理论空间的维度位置。

图6-5:文本样本的因素分析
谜题的答案现在已经很清楚了。有争议的文章与丽莎的论文特点一致,而与保罗的不一致。保罗和丽莎的早期论文表现出一致性但却有不同的风格,至少在由单词计数所定义的风格上是不同的,因素图是识别论文所属作者的一个有用工具。
豪-马奇博士给丽莎A+的成绩并指责保罗抄袭,他现在正忙于和保罗的律师展开漫长的官司,这无疑会使得我们优秀的统计学家朋友身无分文。不过,重要的事情是,有一个统计方法得以展现。科学再一次获胜。
6.5.3 参阅
“Who wrote the 15th book of Oz?,” by J.N.G. Binongo in Chance, 16, 2, 9-17.
