3.9 建立信度
对使用、编制和参加利益攸关的测试的人而言,建立测试分数的准确性是很有利的。幸好,教育和心理测量领域提供了几种方法可以验证测试分数的一致性、准确性,并表明其可信程度。
任何使用测试来进行重大决策的人,都需要确定产生的分数是准确的,并且分数没受到太多随机作用的影响,比如那天早晨的应聘者是否吃了早饭,或学生在测试期间是否过度紧张。测试开发人员需要建立信度来说服他们的客户相信可以依赖产生的结果。
也许,最重要的是,当你参加一项关乎能否被录取,或决定是否会晋升为首席餐饮大厨的测试时,你需要知道分数反映了你的典型水平。本Hack展现了信度测量的几种方法。
3.9.1 信度的重要性
首先,讲解一些关于测试信度的基础知识,以及你为什么要找出你所参加的重要测试的信度证据。人们期望测试和测量工具有一致性,不管是内部的(用相似方法测量相同的构造行为)还是外部的(如果横跨不同时间反复执行,那么得到相似的结果)。这些都是信度的问题。
信度通过统计方法来测量,可以通过计算一个特定的数字来代表一个测试的一致性水平。大多数信度指标基于如下相关[Hack #11]:对测试项目做出的反应之间的相关,或一个测试的两个分数集之间的相关,或是一个测试两次计分的相关。
有四种常见的信度类型用来确立一个测试产生的分数是否不包含太多随机变异:
- 内部信度
每个参试者的表现在同一个测试中的不同项目间是否一致?
- 重测信度
执行同一测试两次,每个参试者的表现是否一致?
- 内部评分者信度
如果两个不同的人给测试评分,参试者的表现是否一致?
- 平行信度
采取不同形式执行同一个测试,参试者的表现是否一致?
3.9.2 计算信度
如果你已经编制了一个你想使用的测试——不管你是一名教师、一位人事主管还是一位临床医学家,你都想证实你的测试是可信的。你用来计算准确性水平的方法取决于你感兴趣的信度类型。
- 内部信度
最常见的信度测量是内部一致性测量,也称作α系数(或克隆巴赫系数)。系数α是一个几乎总是介于0.00~1.00的数字。值越大,测试项目的内部一致性越高。
如果你参加一个测试并把测试分成两半,比如奇数项为一半,偶数项为另一半,你能计算出这两半的相关性。计算“分半相关”(split-half correlations)的公式就是计算相关系数的公式[Hack #11],并且计算分半相关是一种常用的估计信度的方法,虽然分半信度现在被认为有点过时。
从数学上讲,计算系数α的公式产生了一个测试所有分半可能的平均相关,并且已经替代了分半相关,成为了估计内部信度的首选。因为这个方程的计算比较复杂,通常用电脑来计算这个值。

n代表测试的项目数,SD代表测试的标准差,S表示加总, 表示每个项目的标准差。
- 重测信度
内部一致性被认为是代表测试信度的合适证据,但在一些情况下,有必要证明过一段时间后问卷的一致性。
如果被测量的事物随着时间推移不会改变,或者它会缓慢改变,那么,如果在两个不同时间执行相同的测试,相同群体的反应应该非常一致。这样两个分数集合之间的相关会反映测试随着时间推移的一致性。
- 内部评分者信度
当不止一人观察测试评分时,我们同样能够计算信度。采用不同评分者的评分时可以证明不同评分者的一致性。甚至只有一名评分者(如一位任课教师)时,如果评分是完全主观的,因为大多数题目是问答题和绩效评估,那么这种类型的信度也有很大的理论意义。
为了在这些情况下,证明个体的分数代表典型表现,必须证明即使使用不同的评判员、计分员或评定者,结果也是没有差异的。内部评分者信度水平的确定通常是建立一系列评分者的分数相关性或计算他们意见一致程度的百分比。
- 平行信度
最后,我们能通过论证下面这个问题来证明信度:一个人参加何种测试的形式不重要,他在这些测试上都会获得相同的分数。只有测试是从大项目池中构建时,才有必要证明平行信度。
比如说,很多标准化大学的入学测试,例如SAT和ACT,不同的参试人员参加不同版本的测试,这些测试是由覆盖相同主题的不同问题构成的。这样的话,即使你周六早晨在缅因州参加了测试,也无法给你在加利福尼亚的堂兄打电话告诉他具体的考题,以便他为下周的考试作准备,因为你的堂兄可能在他考试时遇到一组不同的问题。
当公司编制不同形式的相同测试时,他们必须证明那些不同形式的测试难度相同,还有其他相似的统计属性。最重要的是,他们必须证明,你的缅因州版本的测试分数会和加利福尼亚版本的测试分数相同。
3.9.3 解释信度证据
有多种方法可供建立测试信度,不同目的的测试应该有不同的信度证据。你能根据信度系数的大小来决定你刚刚编制的测试是否需要改进。如果你只是参加测试或只利用测试提供的信息,那你能用信度的值来判断是否应该相信测试的结果。
- 内部信度
只设计用来做重要决策的测试,应该有非常高的内部信度,这样一个人在这个测试中获得的分数应该会非常准确。虽然只是一个经验法则,但人们通常认为0.70或更高的α系数是声明一项测试具备内部信度所必需的。对于你来编制或参加的测试,还是你自己决定多大的信度是可接受的吧。
- 重测信度
像很多社会科学研究设计一样,一个用来测量随时间推移发生的变化的测试,应该展示良好的重测信度。良好的重测信度意味着多次测试之间分数的改变不是由随机波动导致的。稳定相关系数的合适大小取决于随着时间的推移,结构的理论稳定程度。那么,取决于它的特征,随着时间的推移,测试产生分数的相关性介于0.60~1.00。
- 内部评分者信度
内部评分者信度只有在计分受主观因素影响的情况下,比如写论文测试,才会令人关注。客观的、计算机计分的选择题测试应该产生完美的内部评分者信度,所以通常对客观测试来说,不会产生那种类型的证据。如果内部评分者相关被用来估计内部评分者信度,那么根据经验法则,0.80是最小可接受的内部评分者信度水平。
有时,内部评分者信度通过报告两位评分者意见一致性的百分比来估计。用一致百分比来估计时,通常认为比例达到85%就足够了。
- 平行信度
只有存在不同形式的测试才能被描述为具有平行信度。你的大学教授可能不需要建立平行信度,因为期末测试只有一个版本,但是大规模的测试公司可能需要建立平行信度。
平行信度应该非常高,这样人们能将测试的任何形式视作具有同等意义。通常来说,一项测试两种形式之间的相关性应该高于0.90。测试公司采取这样的研究方式:一群人都按照两种形式参加这项测试,以此来计算平行信度系数。
在你参加一项利益攸关的、关乎未来发展的测试之前,确保测试有可接受的信度水平。你希望看到的信度类型证据取决于测试的目的。
3.9.4 改进测试信度
要确保测试有一个高α系数或其他任何信度系数,最简单的方法是增加测试的长度。围绕相同概念进行提问的项目越多,作答者澄清他们态度或展现他们知识的机会就越多,那项测试上总分的信度就越高。这在理论上讲得通,也同样从数学上提高了信度,我们可以从计算信度所用的公式看出来。
回顾前面的α系数计算公式。随着测试长度增加,总测试分数的变异比项目间的总变异增长得更快。在公式里,这意味着随着测试变长,括号里的值变大。n/n-1部分同样随着项目数量增加而提高。所以,更长的测试往往产生更高的信度估计。
3.9.5 生效原理
相关性使两个分数集匹配起来,每对分数描述一个个体。如果多数人表现一致——两个分数都高或都低,或者和其他人对比都是平均水平,或者一个测试的高分与另一个测试的低分匹配一致,那么相关性会接近1.00或-1.00。
分数之间的不一致关系,产生一个接近于0的相关。分数的一致性,或是测试和其自身的相关,在经典测试理论[Hack #6]建立的标准下,可表明分数是可信的。经典测试理论认为,除了其他方面外,随机误差是单人多次参加相同测试而分数发生变化的唯一原因。
