3.10　建立效度

3.10　建立效度

一项测试最重要的特征是，它对预期目的有用。如果要证明测试分数代表了预期设定的意思，那么建立效度是非常重要的。如果你可以提供某种类型的证据，那么能够让你自己和其他人相信你的测试是有效的。

一个良好的测试测量它打算测量的事物。比如一项意图找出高中生系汽车安全带频率的调查，很明显，这项调查应该包含关于安全带使用的问题。一个没有这些项目的调查，会因为没有效度而受到合理批评。调查、测试和实验都需要可接受的效度。如果你正在设计一项心理学或教育测试，或只是想确保你的测试是有用的，那么你应该关心效度的建立问题。

对一个测试而言，效度不是可有可无的东西。效度是由测试开发人员、那些关心测试结果的人，以及任何与测试及测试结果利益相关的人共同决定的。

想想一个由数学问题构成的拼写测试。很明显，数学问题构成的测试不是一个有效的拼写测试。虽然它不是一个有效的拼写测试，但它可能是一个有效的数学测试。测试的效度或调查的效度不在于工具本身，而在于对结果的解释。

一项测试可能对一个目的有效，但对另一个目的无效。用一个学生的拼写测试分数来解释他的数学能力是不合适的。这个分数也许作为对语言能力5的测量是有效的，但对数字流体能力（fluidity）无效。分数本身既不是有效的也不是无效的，与分数关联的意义才是有效或无效的。

5在心理学的智力领域，美国心理学家卡特尔把智力分成流体能力和晶体能力，流体能力是人的一种潜在能力，主要和神经生理的结构和功能有关，很少受社会教育影响，它与个体通过遗传获得的学习和解决问题的能力有联系。晶体智力则主要是后天获得的，受文化背景影响很大，与知识经验的积累有关。——译者注

为了说明如何解决建立效度的问题，想象你设计了一种测量拼写能力的新方法。你想要把测试卖给全国的学校，但首先你必须拿出显而易见的证据，证明你的测试测量的是拼写能力，而不是其他内容，比如词汇、焦虑性、阅读能力或是（其他可能影响分数的因素）性别或种族。

3.10.1　效论的制胜策略

效度看起来像一个永远无法获胜的辩论，因为作为一个不可见的质量指标，它永远无法完全建立起来。但作为一名测试开发人员，你希望使参试人员以及任何会使用测试结果的人相信，你本质上测量的就是你想要测量的事物。幸好，有很多可行方法能够给测试提供效度证据。

有趣的是，最普遍接受的效度类型在理论上具有最弱的论据。这种论据是表面效度的一种，它是这样的：测试是有效的，因为它看起来（表面上）像测量了它想要测量的事物。那些提出或接受表面效度论据的人认为，在这个测试中发现了他们期望的项目类型。比如，之前提到的安全带使用调查，如果其中有项目问到安全带使用，那么它就会被视为具有效度。

表面效度论据很弱，因为它只依赖于人们的判断，却令人无法抗拒。在说服某人完全相信并接受一个评估时，常识是一个很强的论据，甚至可能是最强的。虽然表面效度看起来没有其他类型的效度那么具有科学性（实际上，它是不太科学的），但如果缺少表面效度，那些编制者和使用者几乎不会接受这种测试工具。作为一名测试开发者或用户，如果你不能提供本Hack后面讨论的效度类型，那么你应该提供一个至少具有表面效度的测试。

对于你的拼写测试，如果参试者被问到拼写问题，就说明你已经建立了表面效度。

有四种更科学的效度证据，被那些经常运用评估的人普遍接受。它们都属于效度的论据范围。

基于内容的论据

测试中的项目公正地代表了能在这个测试上出现的项目吗？如果一个测试想要覆盖一些明确界定领域的知识，那么问题是从这个领域公正取样的吗？

基于标准的论据

测试的分数能用于估计其他类似测试的表现吗？

基于结构的论据

测试的分数代表了你希望测量的特质吗？

基于结果的论据

参加测试的人受益于经验吗？测试时偏向于某个群体吗？参加测试是否导致太多的压力，以至于不管分数如何，都是不值得的？

3.10.2　基于内容的论据

假设你决定测量一个概念，而那个概念有很多方面，并且在一个测试上能问很多不同的问题。你需要证明为测试选择的项目代表了所有的可能项目，这种证明就是对效度基于内容的论据。

这听起来像一个令人畏惧的需求。通常，人们认为这类证据在测量成就时更加重要。在成就领域（如医药、法律、英语、数学），有非常多且明确清楚的领域和内容可供某项有效测试取样。同样，一名任课教师可能已经定义了一项测试应该测量的一系列目标或内容范围。但是，当测试行为、知识或态度这些领域时，很难像这样准确定义一个学科的各方面。因此，作出这样一个合理论据是困难的：你已经选择出了一些问题，它们能代表某个想象的所有可能问题的问题池。

那么，在测试构建中，对效度的内容证据而言，什么才是必须的？看起来，至少需要某种问题选择或构建的组织方法。比如，当测量自尊时，问题可能涵盖参试者在不同环境中的自我感觉如何（如工作场所、家里或学校），同时还有不同任务表现（如体育、学术或工作职责），或对自己不同方面的感觉如何（如外表、智力或社交技能）。

对于一名测量过去几周学生学习程度的任课教师来说，制定一张规范表（包含组织好的主题列表并表明重要性）是个好方法。

测试开发人员有权决定如何组织一个概念或如何将这个概念分解。测试人员可能从研究或其他测试中获得灵感，也可能只是遵循了一些通用模式。关键是要说服自己，这样你才能说服他人，让他们相信你的选择覆盖了正测量事物的重要方面。

对于你的拼写测试，如果能证明让学生拼写的单词代表了学生应该掌握的更大的单词池，那你就是在提供基于内容的效度证据。

3.10.3　基于标准的论据

效度的标准证据说明，一个测试上的回答能预测某个其他情境下的表现。“表现”可以是工作上的成功，测试分数、他人的评价，等等。

如果测试上的回答和标准表现相关，且这个标准能马上测量，那么这个效度证据叫做同时效度（concurrent validity）。如果对测试的响应和未来某天才能被测量的标准表现相关，那么这个效度证据叫做预测效度（predictive validity）。

显而易见，你选择用来支持标准效度的测量应该具有相关性，测量的概念应该与标准具有或多或少的理论相关性。当测试的明确目的是估计或预测在某个其他测量上的表现时，这种形式的效度证据是最具说服力且最重要的。

当测试不需用来预测未来或估计在某个其他测量上的表现时，基于标准的论据就不那么具有说服力了，也许是不相关的。比如，这种证据可能对你的拼写测试没有用。另一方面，你也许可以证明在你的测试中得到高分的人，在全国拼写比赛中也表现良好。

3.10.4　基于结构的论据

效度证据的第三种类别是结构证据。结构（重音在第一个音节，con-struct）是一个测试设计要测量的理论概念或特质。我们知道永远无法直接测量智力或自尊等的结构。心理测量的方法是间接的。我们通过问一系列问题，希望作答者使用我们正测量的他思维的一部分，或参考包含过去行为或知识信息的记忆的一部分，或者，至少指引作答者检验他在某个特定话题上的态度和情感。

我们进一步希望参试人员在测试项目上准确且诚实作答。实际上，测试结果总是被当做结构的直接测量，但我们不应该忘记它们只是有根据的推测。整个过程的成功依赖于另外一系列假设：我们已经正确定义好了我们试图测量的事物结构，并且我们的测试也反映了那个定义。

那么，结构证据总是包含这两方面：对所定义结构本身的辩护和对使用工具反映了定义的声明。展示结构效度的论据包含这样一个论证：实际的反应和理论预期的反应一致。结构效度在每使用一个调查或测试时不断累积，像所有的效度论据一样，它永远无法完全令人信服。在某种意义上，结构效度论据包含了内容和标准效度论据，因为所有效度论据都试图建立概念和测量之间的联系。

对于你的拼写测试，可能存在对拼写能力本质的研究，将其作为认知活动、人格特质或某种其他明确定义的实体。如果你能通过拼写能力定义你的意思，证明你的测试分数和定义所期望的一致，那你就拥有了基于结构的效度证据。理论认为阅读能力好的人拼写能力也好吗？展示那种相关，也许用到相关系数[Hack #11]，这样你就已经呈现了可能说服别人的效度证据。

3.10.5　基于结果的论据

在10年或20年之前，对建立效度感兴趣的测量人员只关心如何证明测试分数反映结构。随着人们开始关注一些测试可能会不公平地使整组人处于不利地位，加上担忧测试的普遍使用会带来社会问题，政策制定者和测量哲学家们现在开始审视参试者因为参加测试而导致的后果。

我们如此习惯测试并基于那些分数进行利益攸关的决策，现在我们应该偶尔退一步，问问自己，如果依赖测试做决策，社会是否会更进步。从代表测试结构的分数到满足预期目的测试，效度的含义在不断扩大。想必测试是在这里给世界提供帮助的，而不是伤害它，基于结果的效度证据是用来证明测试的社会价值的。

就像古老笑话中政府人员一样，测试是“在这给我们提供帮助的”。

对于你的拼写测试，你想要消除的核心负面影响是测试偏差。如果你的拼写能力理论预期性别、种族或社会经济地位之间没有差异性，那么拼写分数在这些组间应该相同。你也许可以用t检验[Hack #17]，来提供组间分数相似的证据，这样就很好地证明测试的公平性和有效性。

3.10.6　从效度菜单选项里选择

这里描述的不同效度证据类别都代表一个策略性的菜单选项。如果你想要证明效度，可以从这些不同的效度证据类型中选择。

明显地，不是所有的测试都需要提供所有类型的效度证据。一项由教师为25个学生编制的小型测试，可能只需要一些基于内容的效度证据来说服教师相信测试结果。基于标准的效度证据不是必须的，因为估计在另一个测试上的表现不是这类测试的预期目的。

另一方面，重要的测试，比如大学入学测试（像ACT、SAT和GRE）和智力测试，这些用来确认学生特殊教育基金资格的测试，应该得到四个效度的证据支持。对于你的拼写测试，你可以自己决定提供哪种类型的证据、哪种类型的论据是最有说服力的。

3.10 建立效度