给1078万考生批卷的,可能不是个人
又一年高考开始了,4000余万份高考试卷成绩,还有背后1078万考生的命运,都在各位阅卷组老师手中。
自1978年恢复高考,至今已有43年,高考阅卷抛弃了上世纪传统的手改手核的方式,换上电脑开始无纸化阅卷。近几年,全国多省陆续试点人工智能阅卷。未来,高考或许会抛弃人工,让机器独立阅卷。
这40多年里,技术是怎么改变了阅卷方式,高考阅卷有没有变得更容易,考生有没有得到公正对待?
故事得从1977年讲起。
杨景诒 | 作者
李拓 | 编辑
放大灯团队 | 策划
一个人的“审判”
1977年,全国恢复了中断十年的高考。
彼时的高考,保密工作并不完善。一门考试结束,监考老师把收上来的答题纸摞好,用针线和牛皮纸装订起来,遮挡考生信息,封进密封袋。等到批改的时候,再发给阅卷老师。
恢复高考第一年的河北数学答题纸 | 来源:新浪看点
阅卷老师拿到答题纸,直接在答题纸上批改、核分。
那时的阅卷制度也不完善,没有“双批”“三批”的要求。一份试卷由一位阅卷老师手改手核,就决定了考生的命运。
但人工阅卷是个累活,一场高考下来,每个阅卷老师要批改逾千份试卷,频繁翻页导致的肩膀酸痛,让常年伏案工作的阅卷老师们身体状况雪上加霜。
后来,为了减轻老师负担,也为了减少人为误判,山东大学和重庆大学推出了一种自动阅卷设备,并在1988年应用于高考阅卷。
这种名为光标阅读机(Optical Mark Reader,即OMR)的设备,能够通过光学扫描和石墨感应技术[1],识别答题卡上的客观题答案,自动给考生打分。
南昊光标阅读机(gif图很大,请耐心等待) | 来源:腾讯视频
1990年,高考实行标准化考试,把考题分成客观题和主观题两部分。客观题的答案写在答题卡上,交给光标阅读机处理,而主观题仍然由老师手改手核。
客观题机读卡 | 来源:南昊官网
可手改手核的方式过于落后,不仅卷子流转效率慢,批改、传阅、核分环节费时费力,而且泄密风险更高。曾任职于某省阅卷组的Z老师在接受放大灯团队(ID:guokr233)采访时表示,试卷从考场转移到阅卷老师手中,有许多环节,保不齐会出什么岔子。
直到世纪之交,计算机技术改变了生活,也改变了高考的阅卷制度,评卷进入无纸化阶段。
眼药水换来公平
1997年,山东大学起草了光标阅读机行业第一个行业标准。第二年,苦于寻不到合适的生产商,山东大学决定自立门户——成立山东山大鸥玛信息产业有限公司。新成立的山大鸥玛,不仅生产光标阅读机,还涉足研发阅卷系统,将全部考生的答题卡上传至电脑,实现网上阅卷,又称无纸化阅卷。
1999年高考,广西率先在英语试卷上试点网上阅卷。考生把客观题答案涂在答题卡上,由光标阅读机判卷,而主观题则写在另一张答题纸上,送进扫描仪扫描,传给后方阅卷老师。而阅卷老师只需要坐在电脑前点点鼠标、敲敲键盘,就能完成评卷。
次年,广西又把试点范围从英语扩大到语文作文。云南、江西、辽宁等地也效仿广西,在保送生能力测试等考试中尝试网上阅卷[2]。
随着先进阅卷技术的普及,行业很快进入了光标阅读机的时代。
到2005年,各地中高考、公务员考试、司法考试,以及各类国家职业资格考试和技术职称考试,纷纷采用标准化试卷、机读阅卷[3],给光标阅读机带来大量需求。
山大鸥玛是国内光标阅读机的先驱,但国内庞大的考试阅卷市场,可不是它一家独享。同一时期成立的科大讯飞子公司广东讯飞启明、拓维信息子公司深圳海云天,还有以河北南昊为代表的衡水系公司,均得益于此,拿到大量政府和学校订单,快速发展起来。(如果你对这个小小的产业感兴趣,请关注放大灯明日文章,我们将为你详细讲述光标阅读机的商业故事。)
转变发生在2013年,全国高考实行网上阅卷,市场也发生了新的变化。
一方面,高考实行全部无纸化阅卷,主观题与客观题均在网上批改,而传统的光标阅读机却只“认识”选择题,无法满足阅卷要求。
另一方面,光标阅读机的速度已显得捉襟见肘。因技术路线不同,光标阅读机的读卡速度为每小时5000张A4答题卡[4],而扫描仪每小时扫描上万张A3答题卡也绰绰有余[5]。
山大鸥玛的扫描仪(gif图很大,请耐心等待) | 来源:山大鸥玛官网
所以,2013年以后,光标阅读机的销量开始下滑,高速扫描仪登台亮相。
高考答题卡也从原本主观题与客观题分开的两张合二为一,变成了一张大尺寸的A3答题卡。
扫描仪会扫描整个卷面,在后台按区切割图片。客观题直接机读打分,主观题通过网络发给阅卷老师。
全面无纸化后的答题卡样式 | 来源:鸥玛官网
这种由“扫描仪+网上阅卷软件”组成的无纸化阅卷系统,被各地教育考试院一直用到今天。
这与无纸化阅卷的优点分不开。
无纸化阅卷系统能够简化阅卷流程。
扫描过的考卷,以照片的形式存档,以网络途径传输,试卷的分发、评分、核分环节在线上自动完成,不需要繁重的保密运输。
无纸化阅卷还能减少评分误差。
中国教育网认为,无纸化阅卷在简化阅卷流程的同时,还能防止老师交换意见,“从而减少评分误差,确保评卷的质量和公正”[2]。
此外,阅卷软件还能够以程序的方式控制阅卷质量,如:通过弹窗提醒的方式,提示阅卷人增减批改速度;把已经评过的卷子随机抽出重批,评估老师阅卷准确率等。
更重要的是,由于阅卷现场看不到考生的试卷,也给保密工作带来诸多便利[2]。
无纸化阅卷固然方便,但电脑屏幕的加入,又加重了阅卷老师的用眼负担。
全国高考统一网上阅卷的2013年,河北阅卷组要在9天时间里批完44.98万考生的试卷。据《燕赵都市报》的报道,2100名阅卷老师每天要在电脑前坐足8个小时,9天时间共用掉了几千瓶眼药水[6]。
既然老师阅卷辛苦,何不多聘请几个老师分担工作?
Z老师认为这不太现实,当地阅卷老师的补贴是按件计费的形式,为了保证老师的收入可观,就必然要控制阅卷老师的总数。“考虑到阅卷工作对体力的要求,教育考试院一般只选择年龄在50岁以下的老师阅卷。”Z老师补充。
近年来,人工智能技术快速发展,或许会成为解救阅卷老师的希望。
谁在雇佣AI阅卷?
人工智能阅卷的历史,最早可以追溯到1996年。
美国杜克大学的埃利斯·佩奇设计开发出一款名为PEG的作文评分系统,是世界上最早智能评分系统。
到2005年,美国一家非盈利性考试服务中心Educational Testing Service(简称ETS)便推出了一个名为E-rater的机器评分系统,应用于GRE、TOFEL等考试。
该组织官网资料,该系统用到了人工智能技术给试卷打分。这个AI系统不光能指出考生的语法、用词和拼写错误,在作文题中还可以评价考生的文章立意、组织结构和语言风格[7]。
2016年,日本文部科学省宣布,考虑引入AI为日本高考判卷[8]。
而国内涉足AI评卷的科技公司,有两家。
一家是阿里。2017年,浙江外国语学院在一次考试中,用阿里的人工智能系统给11位外国留学生的中文试卷阅卷,并宣称AI阅卷准确率已超过人类[9]。
次年9月,阿里又发起一场全球数学比赛,“阅卷老师”同样是阿里自研的人工智能[10]。
另一家,则是发迹于教育的科大讯飞。
科大讯飞在早年便开发出口语测评系统,为多地普通话考试提供智能评分服务。后来,讯飞又把注意力从口语转向文字,研究智能批改技术。
2015年11月,科大讯飞曾在安庆、合肥等地的学校试点用AI批改作文[11];一个月后的科大讯飞年度发布会上,董事长刘庆峰又推出智学网,宣称能实现全科阅卷、智能批改[12]。
语文作文智能评分流程 | 来源:科大讯飞智慧教育
2017年中考,湖北襄阳首次引入讯飞的人工智能阅卷系统。一年后,安徽首次把该系统应用于高考。
兹事体大,安徽教育考试院没敢让AI在高考中挑大梁,该系统主要用于作文题辅助阅卷,给老师“打打下手”。中安在线曾报道,“它在后台对试卷进行评判,与老师的阅卷结果进行对照,如果偏差较大,会进行提醒。”[13]
虽然人工智能暂时还是“辅助”角色,但并不影响各地教育考试院的采购热情。自2018年起,科大讯飞先后中标安徽、河北、湖北等地的采购需求。科大讯飞智慧教育公众号文章中称,该技术每年服务的中高考考生,已超过600万[14]。
讯飞子公司——讯飞启明中标湖北省教育考试院人工智能阅卷项目 | 来源:中国政府采购网[15]
Z老师也表示,当地高考虽然未曾使用过人工智能阅卷,但教育考试院的技术部门确实在对接相关事宜。
虽然暂时派不上什么用处,但往好处看,这些系统的采购价格都不贵——
2018年8月,安徽省教育招生考试院采购智能阅卷网评质量控制服务,价格为15.8万元;
2020年7月,湖北省教育考试院采购高考人工智能评卷服务和研考人工智能评卷检测服务,价格为20.3万元;
2020年10月,河北省教育考试院采购人工智能AI质检技术测试服务,价格为19.76万元。
若按照每个高考阅卷老师补贴2000元计算,20万元不过是100个老师的成本。一旦投入使用,将给教育考试院节省大量人力支出。
谁更有资格决定考生命运?
从前,考生的命运掌握在阅卷老师手心,他们答个卷都得想着阅卷老师的体验——
答卷要用黑色签字笔,阅卷老师看得更清楚;
写字要写楷体(至少要整洁),方便阅卷老师分辨;
答题卡要严格分区,让阅卷老师理解作答顺序。
即便如此,人工阅卷仍然不尽人意。
2014年高考,有浙江阅卷老师反映阅卷速度过快,“主观题平均用时9秒,作文平均1分钟判阅完成”。上海交通大学教授、21世纪教育研究院副院长熊丙奇称此类问题普遍存在,甚至有人直言高考阅卷是“草菅人命”[16]。
2020年,一篇名为《生活在树上》的满分作文引发争议,浙江语文评卷组作文组组长被举报开课卖书,“既做教练,又当裁判”[17]。
把阅卷任务交给AI,对考生来说就是好事吗?
与人工阅卷相比,AI不知疲倦、阅卷速度快,而且有标准统一,犯错几率也小。但是,AI“眼中”的标准,一定适用于高考吗?
一方面,AI的偏见在阅卷中已有先例。
Vice曾指出,前述ETS的智能评分系统E-rater存在算法偏见——它更倾向于给中国学生高分,而给非裔美国学生、阿拉伯学生和西班牙学生低分。后经ETS研究,发现这是由于中国学生作文篇幅更长,使用的句式和词汇更加复杂[18]。但拗口的句子和华丽的辞藻,显然不是高考作文的“金标准”。
另一方面,AI阅卷系统的“智能程度”,还有待检验。
2020年,美国一款服务于两万所学校的AI阅卷系统被指存在漏洞,考生只要列出相应关键词,就能被系统识别并获得高分[19]。事实上,在中国高三学生群体中,“高分作文模板”也已流行多年,AI到底能给高分还是判定“抄袭”?一旦再出一篇半文半白的文章,AI读得懂吗?
根据科大讯飞在2021年4月公布的数据,人工智能评阅语文作文的人机评分一致率为99.33%[14]。但若全国均使用人工智能阅卷,今年上千万的考生中,最终也会有7.2万人受到AI的不公正对待,谁来保证少数考生的利益?
2020年8月,教育部考试中心称要“坚决维护高考评卷和命题工作公平公正”[20],但是要做到绝对的公平,靠人很难,靠AI也很遥远。
*本文头图来自微博@stage1st宅社区
References:
《救市主华为》