6.5　物归其主

6.5　物归其主

文体测算（Stylometrics）作为一种统计方法，可标识出定义作者风格的相关维度。它采用因素分析的方法来判断谁是作品的作者。

豪-马奇教授面临着一个问题。他最好的两名学生现在都坐在他的办公室里，希望能解决一个争议。豪马奇博士将保罗的期末论文评为A+（这是一篇探讨巧克力牛奶重要性的历史论文），但问题是，丽莎声称那篇论文是她写的。这构成了抄袭指控！两人都是好学生，在过去都为教授写了许多高质量的论文。所以，判断谁是真正的作者并不容易，意识到最喜欢的学生之一是个骗子也不容易。

幸好，相比他担任的州立社区学院和货运学校兼职教授一职，作为优秀哲学博士的多年经验使他能够想出更有效的方法。除了一些不明显的统计爱好，豪马奇博士还涉足文体测算领域，这是一种对文字作品风格分类的统计方法。该方法也可用于识别匿名作者。当有好几种可能性或者若干嫌疑人以供选择时，当嫌疑人的典型写作风格已知并已量化时，该方法的效果最好。让我们看着心碎的教授如何应用这些技术找到真正的作者。

6.5.1　建立模型

首先，豪-马奇博士让保罗和丽莎带来所有他们在过去写的、没有争议的其他论文。仅用短短几分钟，这些论文就被扫描到计算机中，并形成两位作者使用的不同单词的数据库。

或者，可以将论文以电子版的形式发送给教授，这样就无需扫描了；这和故事没有一点关系，那你为什么要问我呢？

第一步分析，将两位作者写的所有单词放在一起。豪-马奇博士数出每个单词的使用频率，在单词结合数据库中确定最常使用的50~100个单词。这些单词作为项目或关键变量构成因素分析（factor analysis）所用的数据。因素分析是这样一个统计方法：它着眼于组间变量的相关性[Hack #11]，并识别出一组群变量，这组群变量的彼此相关性比它们和其他变量的相关性更强。不管这些变量的共同之处是什么，它们都被假定共享一个因素、部分或维度。

便于我们故事的开展，我只列出10个豪马奇博士认定的两位作者最常用的词。表6-14显示了这些词和它们的使用频率。当查看保罗和丽莎写的所有词时，“the”的使用频率为4.2%，“weasel”的使用频率为1%，以此类推。

表6-14：保罗和丽莎的常用词及其频率

词	频率
the	4.2%
and	2.1%
to	1.8%
a或an	1.2%
weasel	1.0%
of	0.8%
in	0.8%
that	0.5%
it	0.4%
not	0.2%

这些词作为变量试图找出描述一个或多个风格维度的潜在因素。保罗和丽莎的风格可能体现在这些维度的不同地方。可能只有一个维度或因素导致这些词用法各异，也可能有很多维度或因素。一旦确定这些由相关变量共同定义的维度或维度上的载荷，任何写作样本都可以被放置在由因素搭建出框架的理论空间里。

豪-马奇博士进行因素分析的数据来自作品样本的各部分，每部分包含500个单词。每部分在每个单词变量上都有一个得分。得分是这个单词在该段落使用的次数。表6-15展示了豪-马奇博士收集的数据例子。

表6-15：研究数据的样本

	the	and	to	a/an	weasel	of	in	that	it	not
第1部分	21	8	11	5	4	0	0	1	0	2
第2部分	10	7	15	5	2	10	1	0	0	0
第3部分	5	5	5	2	6	12	2	4	1	0
第4部分	0	2	4	3	1	4	6	8	1	0
第5部分	4	11	16	2	0	3	5	0	3	1

表6-15中，分数表示每个单词出现在文本部分的次数。

6.5.2　因素分析

接着，豪-马奇博士进行因素分析，因素分析是一个相当复杂的数学过程，所以现在基本使用计算机来完成，与此同时，研究人员根据相关理论在分析过程中的不同时刻作出决策。基本上，要不断分析变量之间的关系，直到发现少数变量组似乎可以尽可能多地解释数据的变异性时，因素才被确定下来。每个分组变量共享的共性提供了定义该因素的数学素材。一旦因素被选择，任何观测（在本例中是文本样本）都能得到因素得分，然后以因素分数为坐标，将其置于那个理论空间里。

在本例中，分析表明，有两个因素很好地描述了样本文本。因素1通过使用的单词来定义，比如一端使用“a/an”而另一端使用“of ”和“in”。换句话说，文本部分基于他们使用冠词的频次而不同，有较高冠词使用频率的部分往往使用较少的介词。因素2通过“weasel”一词的使用频率来定义。

在探索性因素分析中，通常研究者对发现和命名能解释人类行为和特征的基本结构（即无形的特征）感兴趣。不过，在本例中，豪马奇教授只对定义维度（例如，单词使用）感兴趣，这些维度是基于变量的，且能在两端对变量进行锚定。他没兴趣搞清楚为什么那些经常出现单词“the”的文本也也往包含高频率的“a”或“an”。他同样对“weasel”一词的使用为什么能够区分不同的写作样本不感兴趣。对他而言，他只需要知道这两个因素提供了一对良好的坐标轴，定位出两位作者在他们样本中使用的所有单词的位置。

计算保罗和丽莎样本论文的因素得分，很明显，结果表明两位作家有不同的风格。丽莎比保罗更频繁地使用“weasel”这个词，她的论文在因素2上得分高。丽莎的论文也倾向于高频使用冠词，在因素1上的分数也非常高。另一方面，保罗的论文往往避免使用“weasel”这个词，而且倾向使用因素1末端的介词。

仅使用单词来描述或许很难把握，所以我们借助一个图例画一幅图来演示样品文本的位置。图6-5显示了这两个因素：定义它们的单词使用，还有不同写作样本载荷在两个因素的位置。为便于讨论，图6-5只显示了少数的写作样本，只标出了表6-14和表6-15中的10个词。图中同样标出了那篇有争议的论文在理论空间的维度位置。

图6-5：文本样本的因素分析

谜题的答案现在已经很清楚了。有争议的文章与丽莎的论文特点一致，而与保罗的不一致。保罗和丽莎的早期论文表现出一致性但却有不同的风格，至少在由单词计数所定义的风格上是不同的，因素图是识别论文所属作者的一个有用工具。

豪-马奇博士给丽莎A+的成绩并指责保罗抄袭，他现在正忙于和保罗的律师展开漫长的官司，这无疑会使得我们优秀的统计学家朋友身无分文。不过，重要的事情是，有一个统计方法得以展现。科学再一次获胜。

6.5.3　参阅

“Who wrote the 15th book of Oz?,” by J.N.G. Binongo in Chance, 16, 2, 9-17.

6.5 物归其主