6.11　发现一个新物种

6.11　发现一个新物种

虽然每天都有物种走向灭绝，但偶尔还是会发现未知的新物种。出人意料的是，利用统计方法而不是生物方法，可以达到鉴别物种的目的。

几年前，一个新的负鼠物种被确认。这个新物种被命名为trichosurus cunninghamii。Trichosurus代表，嗯……负鼠（我猜的），cunninghamii部分代表它的发现者，罗丝·坎宁汉（Ross Cunningham），一位澳大利亚国立大学的统计学家。如果你想有一个因你命名的物种，可以接受统计提供的帮助。

6.11.1　用统计鉴定物种

有一大族系的统计分析方法，它们着眼于一堆变量并发现变量中自然出现的分组。通常来说，变量分组或集群的鉴定依据它们之间的相关性[Hack #11]。

有一种使用这种策略的方法，它试图找出相关的维度，或无形的、能解释一堆不太重要变量的大型基础变量。这种方法就是因素分析，我们已经在其他章节看到它如何识别作家的写作风格[Hack #65]，除此之外，它还有其他用途。

统计学充满了类似的技术，可以识别出维度、根本原因，还有分组。对于有生物倾向的、愿意识别新物种的统计学家来说，确定分组的目标是非常有用的。

从技术上来说，如果某组动物属于一个独立的物种，那它们必须共享唯一的一组生物特点，使其区别于同类动物。当然，同一科属的动物都长得略有不同，但另一方面，人和人之间有很多的不同，但我们都是同一物种（我的叔叔弗兰克的存在或许能证明这一规则也有例外）。

如果一组动物，如坎宁汉博士的负鼠，它们之间的共同点比与同科属的其他生物的共同点要多，那它们有权将自己看做一个候选新物种。统计可以确定“它们彼此之间更相像，与其他物种的差异比仅靠几率产生的更多”的临界点在哪里。

将坎宁汉的发现作为一种模型，你要实现自己的发现，下面有几个步骤要遵循。

收集数据

这种负鼠已经在澳大利亚人的眼皮底下存在200年以上，但没有人注意到。实话实说，它看上去非常像其他的负鼠，其中最常见的是trichosurus caninus，现在叫短耳负鼠（short-eared possum）。

有一段时间，人们认为这些小家伙真的只有一个品种。坎宁汉博士的一部分工作是收集和整理他周围野生动物的描述性数据。因此，他有大量的、关于各种负鼠身体各部分的、非常具体的定量描述，眼睛、耳朵、鼻子和喉咙，还有其他的物理测量。

选择统计方法

坎宁汉选择了一种和因素分析相似的技术，但它有一个更具气势的名称：典型变量分析（canonical variate analysis）。你可以采用使用变异分数的任何方法来创建不同的组。其中一些在本书中有讨论，比如因素分析，本Hack之前的章节也提到了很多其他有效的方法。

如果你真的是擅于统计的人，那么知道典型变量分析和判别分析（discriminant analysis）及多元方差分析（or multivariate analysis of variance，MANOVA）具有功能上的一致性会对你有益，判别分析和多元方差分析是另外两个用于创建线性复合变量的方法，目的是定义两个或两个以上截然不同的群体。

坎宁汉用这种统计方法检验这个假定的单一物种（你知道的，就是trichosurus caninus负鼠）的描述性数据，并证明它们可能是两个不同的物种。

选择一个假设并分析数据

统计学家检验假设，所以你应该在开始分析时就作出这样的猜测：提供给你数据的族群之间是否存在区别。

在我们的成功案例中，坎宁汉假设数据来自两个不同的物种群体。那么，该方法（当然，用计算机进行计算）可以确定哪些变量作为理论组之间的主要区别特征效果最好。

使用典型变量分析和其他类似回归工具的区别是，当在回归分析中使用变量进行预测时，研究者有一些关于实际科属分数的已知数据，即它们属于[Hack #13]哪个“组”。这里的方法是在不知道正确答案的情况下摸索地进行。相反，它可以找出与手头的变量最不同的群组。

下面是坎宁汉使用的变量：

头长；
头骨宽度；
眼睛大小；
耳长；
体长（从鼻子到卷曲的尾巴的尖端）；
尾长；
胸宽；
足长。

虽然还考虑了其他变量，但坎宁汉选择这些特征是因为最终发现它们是区分不同物种的最重要的方面，并且这些特征可能不受环境影响。

解释结果

任何统计分析的最后一步都是描述和理解你的发现。对于发现新物种来说，你需能足够详细地描述新物种，以把它和其他同类物种区分开来。坎宁汉使用的方法确定了由不同权重的生物变量组成的一系列方程，目的是找到最能识别两个不同组群的组合。这些方程（该方法将其称作变量）类似于回归方程，结果或标准变量用来确定负鼠属于哪个组。下面是一个最好的公式，能够解释数据库中高达89%的负鼠特征差异：

（头长×0.44）+（头骨宽度×0.07）+（眼睛大小×0.05）+（耳长×0.82）+（体长×0.35）+（尾长×0.72）+（胸宽×0.16）+（足长×0.70）

我已经提供了研究中标准化的权重，因此我们可以将它们进行相互比较。最大的权重代表负鼠的这个身体部位在数学选择的两组负鼠间最为不同。

在这个公式中，你会发现两组负鼠的耳长、尾长和足长最不相同。从统计学上来说，变异的解释量是如此之大，以至于坎宁汉认为数学上确定的这种分组是真实的。从数据中发现的两组负鼠实际上是两个不同的负鼠物种，而这个物种可以通过它们的耳长和其他几个变量来定义。前面所示公式的权重越大，两个物种在这些身体部位上的差异就越大。

6.11.2　两个负鼠物种

表6-20显示了由我们的统计学家和他的数学首次确认的两个负鼠物种的官方描述。注意，它们甚至都是基于统计分析中发现的关键预测变量来命名的！

表6-20：两种常见的澳洲负鼠

	trichosurus caninus	trichosurus cunninghamii
通用名称	短耳负鼠	山刷尾负鼠
居住地	北方	南方
耳朵	短耳	长耳
足	小足	大足
头	大头	小头
尾巴	长尾	短尾

那么，现在开始收集你在纱门上发现的那些奇怪的、散发恶臭的昆虫数据吧，这样你就踏上通向伟大和不朽的道路了。恶臭的昆虫是一个物种还是两个？你来告诉我。

6.11.3　参阅

我在这篇美妙的文章里第一次了解了这种鉴定物种的方法：Hall, P. (2003).Chance, 16, 1。

6.11 发现一个新物种