3.7　公平测试

3.7　公平测试

任课教师经常创建他们自己的测试来测量学生的学习情况。他们总是担心测试是否太难或太简单，是否测量到了他们想要测量的东西。项目分析工具提供了教师关心问题的解决方案。

课堂评估可能是如今的教室里最常见的活动。教师总是编制测试并给测试评分，学生总是为测试而学习并参加测试，整个过程都是为了支持学生的学习。测试不应该太难（或太简单），并且测试必须测量教师想测量的东西。测试分数和评级是教师和家长、学生、管理人员的沟通方式，所以位于试卷顶部的分数要公平。分数必须准确反映学生的学习情况，并且分数应该是质量评估的结果。

忧心忡忡的教师一直为改进他们的测试而努力，但是他们总是没有坚实的数据支持，不断在黑暗中摸索。一位聪明且体贴的教师可以通过什么来改进他的测试或提高他评分的效度呢？名为项目分析（item analysis）的一族统计方法能给正在找寻开发公平评估和评分方法的教师指明方向。

3.7.1　项目分析

项目分析是检验个体测试项目课堂表现的方法。一位任课教师也许想检验他编写的测试的部分表现，看他的学生掌握了哪些方面，而哪些方面需要多加复习。一名为护士资格证编制测试的商业测试开发人员也许想要知道他编制的测试中，哪些项目是有效的，哪些项目看起来测量的是其他事物，应该被移除。

在上述两种情况下，测试开发人员会对项目难度和项目效度感兴趣。虽然其中一个例子说的是一位为学生编制测试的中学教师，而另一个例子说的是一个大型盈利公司，但这两类测试的开发人员都对相同类型的数据感兴趣，都能运用相同的项目分析工具。

3.7.2　课堂评估问题的三种类型

如果你是一名担心自己的评估的任课教师，你可能需要回答三种不同类型的问题。幸好，有三种项目分析工具会给你提供三类不同的所需信息。

测试问题是否太难

任何特定测试问题的难度，都可以通过难度指数（difficulty index）公式非常容易地计算出来。你可以计算参加测试的学生中答对题目的人数比例，从而计算某个测试题目的难度指数。比例越大，知道题目所测信息的测试参与者越多。

难度指数这个术语是与我们的直观理解不同，因为它实际上反映的是题目的简单程度，而不是题目的难度。难度指数高的题目是一个简单的题目，而不是一个困难的题目。

多难算难？你得自己决定。有些教师把难度指数为0.50或0.50以下的题目视作太难题目，因为大多数人没有答对。你也许有更高的标准。如果你认为大多数学生应该已经学会了这些内容，而相应题目的难度指数显示班里很大比例的学生答错了，那这个题目可能太难了。

实测是否为想测

测量学家宣称，如果一个测试项目测量的是它想测的东西，那么它就是有效的（valid）[Hack #32]。辨别力指数（discrimination index）是对项目效度的基本测量，此外还要对项目进行信度测量。辨别力指数测量的是项目在整个测试中区分得分高的人和得分低的人的能力。

虽然计算过程有好几步，但计算出来以后，就可以将这个指数看作一个程度指标：反映整个内容领域的知识或技能掌握和项目响应的关系程度。

辨别力指数的得名不是因为它代表测试偏差。辨别力是确认在一个项目上回答正确的人是属于高分组还是低分组的能力。

为什么我的学生错了一道题

除了检测整个测试项目的表现，教师们也对检验选择题的个别干扰项（不正确选项）的表现感兴趣，这种检验是通过选项分析来完成的。通过计算选择每个选项的学生比例，教师能看到学生犯了哪种类型的错误。他们是否理解错了某些概念？他们对资料是否有相同的困惑？

从测量学角度看，为了改进项目的效果，教师们应该确认哪些干扰项是有效的，看起来对那些不知道正确答案的学生有干扰作用；哪些干扰项只是占用一个选项位置，很多学生都不会选择它。

为了消除纯属偶然的、仅靠猜测就答对题目的现象，教师和测试开发人员要设置尽可能多的可信干扰项。对反应选项进行分析，教师能够调整、改进这些也许会在今后的课堂里再次使用的项目。

3.7.3　进行项目分析并解释结果

下面是项目分析的计算方法，我们以带有数据的示例项目进行说明。在此例中，想象有一个课堂，共25名学生参与了表3-6中项目的测试（要记住，即使是标准化测试开发人员对更大规模的、成百上千的测试参与者进行测试，也使用相同的方法）。

表3-6中选项旁的星号代表B是正确答案。

表3-6：项目分析示例

“谁写了《了不起的盖茨比》”一题的答案	选择每个答案的学生数量
A. 福克纳	4
B. 菲茨杰拉德*	16
C. 海明威	5
D. 斯坦贝克	0

为了计算难度指数：

1.计算获得正确答案的人数；

2.除以参加测试的总人数。

难度指数范围是0.00~1.0。在我们的例子中，项目难度指数是0.64。这意味着64%的学生知道正确答案。

如果一位教师认为0.64太低了，那么他有一系列措施可供采取。他可以改变他的教学方式来更好地满足项目所代表的教学目标。另一个解释可能是项目太难了，或具有迷惑性，或者无效，在这种情况下，教师可以使用项目辨别力指数或反应选项分析的信息来替换或修改项目。

为了计算辨别力指数：

1.按照总分对测试成绩排序，创建两个组：高分组（由排序结果的上半部分构成）和低分组（由排序结果的下半部分构成）；

2.对每一组，计算项目的难度指数；

3.用高分组难度指数减去低分组难度指数。

假设在我们的例子中，高分组中的13个学生（或测试）里有10人，低分组中的12个学生有6人，答对了本题目。高分组的难度指数是0.77（10/13），低分组的难度指数是0.50（6/12），所以我们能够像这样计算辨别力指数：

该项目的辨别力指数为0.27。辨别力指数范围为-1.0~1.0。正值越大（越接近1.0），总体测试表现和这个项目表现的相关性越强。

如果辨别力指数是负的，那意味着出于某种原因，测试总分低的学生更可能答对这道题。这是一种奇怪的现象，表明题目效度很糟糕，或者参考答案是错的。教师总是希望测试上的每个项目都是有效的，能反映知识和技能的掌握程度。

计算辨别力指数的公式决定了：如果高分组选择正确答案的学生数多于低分组，那么数字就是正的。所以，至少教师会希望出现正值，因为那将意味着获得正确结果是因为掌握了知识，而不是靠猜测。

我们能利用表3-6提供的信息，来看不同选项的受欢迎程度，如表3-7所示。

表3-7：“谁写了《了不起的盖茨比》”项目分析

答　　案	选项受欢迎程度	难度指数
A. 福克纳	4/25	0.16
B. 菲茨杰拉德*	16/25	0.64
C. 海明威	5/25	0.20
D. 斯坦贝克	0/25	0.00

选项分析结果显示，没有答对这道题的学生可能选择了答案A或答案C。没有学生选答案D，所以选项D并没有充当干扰项。在这个项目上，学生不是在4个答案选项中选择，实际上只是在3个选项中选择，因为他们甚至都没考虑选项D。

这样一来，猜对的可能性就更大了，从而降低了项目的效度。教师可能将这个数据视为如下现象的证据：大多数学生在《了不起的盖茨比》和菲茨杰拉德之间建立起了联系，没建立起这种联系的学生无法很好地区分福克纳和海明威。

3.7.4　对项目分析和测试公平性的建议

为了改进测试质量，可利用项目分析确认出太难（或太简单，如果教师有这种担心的话）的项目，但无法区分出掌握内容的学生和没掌握内容的学生，或者说存在不可信的干扰项。

如果作为一名教师，你关心测试的公平性，那么你可以改变教学方式，改变测试方式，或是改变评级方式。

改变教学方式

如果有些项目太难，那么你可以调整教学方式。你可以着重教授未学会的内容或者采用不同的教学策略。你也许能明确调整教学方法来纠正学生对内容的困惑和误解。

改变测试方式

如果项目有低的或负的辨别值，那可以把它们从当前测试中移除，也可以在将来的测试中将它们从项目库里移除。你同样可以检验项目，尝试发现它的不妥之处，然后改变该项目。当干扰项被确认为无效（没人选择它们）时，教师能够改进项目并创建一个新的干扰项。有效和可信测试的一个目标是降低学生随机猜测出正确答案由此获取分数的几率。可信干扰项的数量越多，测试通常越准确、越有效、越可信。

改变评分方式

你可以使用项目分析信息来判断哪些内容是没有教授的，为公平起见，从当前测试中移除该项目，并重新计算分数。对任课教师而言，最简单的做法是：计算出一个测试中的不良项目数，并将这个数字加到每个学生的分数上。此方法与把这些项目当做不存在而重新计分的方法在技术上是不同。但是这样的话，学生如果答对了某个难度较高的项目，他们依然能够获得该项目的分数，对大多数教师来说，这种方法看起来更加公平。

这些教师对测试质量的关心和科学家提出的研究问题没有太大差异。就像科学家一样，教师可以在他们的课堂上收集、分析数据并解释结果。他们能够基于自身的认知体系，决定对结果采取什么样的措施。

3.7 公平测试