考试,只是一种测量工具 (精选言论集)

【废除UPSR争议】考试,只是一种测量工具(上)

教育部终于决定永久废除小六检定考试(UPSR)。在多项应对不断变化的疫情的决策当中,废除小六检定考试是教育部近来少数赢得掌声的决定之一。

长期以来,考试成绩已成为我们教育系统重点考量,经常左右学校的政策与办学,课堂中教学方法,甚至是孩子在家中及校外的自由时间。原来被教育局规定为必修的非考试科目,如健康教育、公民教育、美术、音乐之类,常在学校行政的同意下,被“借用”来为学生学习考试科目;学校为应考生额外安排的课馀备考班;学生们必须购买、却做也做不完的各科练习簿;天天背负重达8公斤的书包……最糟糕的是,考试结果几乎是学习成功与否的唯一定义。

别误会。我也支持废除UPSR。但这绝不是因为它是解决应试教育问题的方案。我相信它不是。理由是,早在新冠疫情中断了学校学习之前,用于今年会考的试卷应该已经编写好了。由于无法临时调整试卷内容,这些试卷将是无效的、没有信度,不准确且不公平。

更重要的是,我们的学童正在经历前所未有、规模最大、时间最长的学习中断。要求他们继续应付关系重大的公开考试会造成进一步的心理伤害

考试是一种心理测量工具。尽管它不是,也不该是用来评估学习的唯一工具,它仍然是重要的工具,如果使用得当,它不仅可以为改善学习提供信息,还可以为教学,教育管理和研究提供回馈。

对许多人而言,构建一份试卷似乎只是雇用一组专家按照其格式命题和组卷的简单且直接的过程。但是实际上,在所有大规模考试中,试题的编写都必须满足一组特定的标准和规范,特别是科学的标准,才可成为有信度、效度、公平且公正的评量工具。

须有明确测量目标和范围

首先,每个试题,都必须设有一个明确的测量目标和范围,以确保测量的知识领域及认知行为(cognitive behavior,通常以布鲁姆认知层次为标准)目标与课程目标一致。例如,一个高中生物有关遗传规律的试题测量目标,可明确地写为:“将概率的概念(知识领域)应用(认知行为)于预测性状遗传中表型的比例(知识领域)。” 这测量目标进而成为评阅试题的依据,从一些公共考试的评阅报告中可见一斑:

“这个问题的主题是教学大纲中主题11的巨噬细胞(知识领域),其中包括主题1、2、3、4和6等其它主题的材料(知识领域)。这个问题的答案一般上非常好,尽管(c)小题对于大多数的考生来说具有挑战性。多数人用回忆(认知行为)的知识而不是运用(认知行为)他们的知识来回答问题。”2016年6月国际剑桥AS及A水平9700生物试卷主考官报告

“此题干采用了某生态系统营养层的研究结果以及两个生态系统的食物网,测试考生们对生态系统结构、功能及能量流动的概念(知识领域)的理解(认知行为)和应用(认知行为)…… 小题(b)的考生反应显示,考生们概括研究结果的能力不强(认知行为),虽然绝大部分能简单地说出(认知行为)平均营养层在下降,只有极少数会引用数据明确地概括结果。考生们推断(认知行为)的能力也不强,大多数考生不经推论便直接说出物种在下降,并没有从营养层的减少推出食物链在缩短,再而推出物种的灭绝。许多考生再次在没有依据的情况下,擅自推断物种减少的导因为生态破坏、环境污染等。”2008年高中生物统一考试考生常犯错误报告

其次,任何大规模评量中,都必须对试卷或问卷进行信度(reliability),差异性(differentiability)和难易程度(difficulty)的测量与鉴定,并让相关学科专家行审查和认可其效度(validity),以便可以使用统计工具对分数进行处理和分析以得出推断和结论。


【废除UPSR争议】考试,只是一种测量工具(下)

由此来看,每个考试分数都是一项原始数据。当所有的分数被汇集一起时,它们可以转换为中心趋势、全距、标准分数、标准误差、标准偏差等信息,以进行推论统计分析。故此,国际学生能力评估计划(PISA),数学与科学教育趋势调查(TIMSS)等国际大规模评估才可以产生信息并得出有如一下有力的结论:

在马来西亚,有54%的学生至少达到了2级阅读水平(经合组织OECD国家平均水平:77%)。这些学生至少可以在中等长度的文本中识别主要思想,根据明确的、有时是复杂的标准查找信息,并在明确指示下反思文本的目的和形式。”

在马来西亚,有2%的学生在数学上达到5级或更高水平(经合组织平均水平:11%)。六个亚洲国家和经济体达至此水平的学生比例最大:北京,上海,江苏和浙江(中国)(44%),新加坡(37%),香港(中国)(29%),澳门(中国) (28%),台北(23%)和韩国(21%)。这些学生可以对复杂的情况进行数学建模,并可以选择、比较和评估适当的问题解决策略以应对这些情况。”─2018年PISA报告(马来西亚篇)https://www.oecd.org/pisa/publications/PISA2018_CN_MYS.pdf

2001年PISA成绩被揭晓时,德国的教育专家当下被震惊:结果表明,德国学生的平均成绩大大低于他们所意料,并且他们的通识教育系统中存在不平等现象。PISA结果显示,德国社会经济背景较低的学生(例如移民)比同龄人的学习困难更大

随后,德国采取了许多针对弱势学生的改革措施,以期使教育制度趋于平等。国际教育成就评估协会研究和分析部门负责人安德列斯·桑多瓦尔-赫尔南德斯也报告了其他一些国家的类似反应。根据他的观察,冰岛和日本增加了小学数学和科学教学的教学时间;新加坡开发了教学资源,以提高认知和元认知(metacognition)能力;澳洲推出了补偿方案,澳洲以减少性别和社会经济对差异学生成绩的影响

以马来西亚的情况而言,中小学数理科目教学媒介语是否该改为英语、或该政策是否有弊端,我们本可以透过分析我国大规模考试的结果来决定,而不是随著政治人物的个人意愿起舞。大规模考试不是我们以考试为导向的原因。而是我们对考试的态度以及我们缺乏改变或挑战这种态度的意愿,促成了这种不良文化的形成和延续。只废除考试,而不反省我们对考试的态度和立场,恐怕无济于事

如前所述,我仍然支持废除UPSR。但是,公开考试的废除仍然无法解决许多问题:我们的学校是否准备好能有效地进行校本评估(school-based assessment)?我们如何确保校本评估的实践不会乖离初衷,转变为应试教育的另一种形式?如何解决校本评估所引起的负面影响或局限[i]?

最重要的是,在我们的学生因停课或网上学习失灵而大量失去的学习机会,而我们却无法掌握问题严重性的情况下,我们难道不是需要更多的大规模数据和信息来指引接下来的国家教育政策,渡过难关?

我们可以没有UPSR。但我认为,我们不能没有可靠和有效的大规模数据和信息。因为它们是有关学生学习的客观的证据,可以为制定国家教育政策时做参考,是良政的基本要素。尤其是现在,我们比以往任何时候都更需要了解考试作为测量工具的本质。应试教育的问题根源不在于考试,而在于我们对考试的态度。将问题归咎于大规模考试不是办法。明智而正确地使用它才是。(完)

[i] 在2015年《澳洲教师杂志》上发表的一篇标题为“学生对校本评估的声音”期刊文章中,研究人员发现,一般而言,学生不喜欢校本评估,因此无法利用评估所提供的反馈。大约80%的学生对基于学校的评估持负面态度。这促使一些学生参加额外的补习班,以完成某些非正式评估(如演讲)中的校本评估项目。一些老师仍然依靠分数来表明学习进度。https://files.eric.ed.gov/fulltext/EJ1057928.pdf


作者:陈逸飞  文章来源: 东方日报 1 2

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

error: Content is protected !!