阿克伦大学的一份新闻稿称,“电脑阅卷的准确度几乎与人工完全相同,事实证明在某些情况下机器比人更加可靠”。
不可否认,人工智能评分机器人在某些条件下确实超出人类判卷的能力,而评卷更多的是基于规则题库的,就是机器根本不需要思考,仅靠标准答案就可以识别对错的,比如选择题。这就更加准确更加快速,所以很早以前,我们已经开始采取机器判卷+人工判卷的方式,比如选择题由机器判卷,作文等需要人为思考判断的采用人工判卷。
随着技术的发展,大数据人工智能领域技术的不断完善,让机器阅读作文评判好坏已经具备了基础前提,其实我们的老师(人工)判卷时也未必每篇都详细阅读,他们也是先看规则。我们知道考试的作文或者答案,是具备一定规则的,比如简单的规则:字数大于1000字,首尾呼应,有复杂的句型,引经据典等等。这就提供了机器判卷的基础维度,但机器通过深度学习后,会形成机器自己的评判规则,来识别什么是好的文章,比如:机器通过大量的数据发现,一个好句子大多拥有有多少个字、一个好段落通常会有多少个句子,通常结构不完整的句子数量在全文占比低于多少比较正常,对待一个观点有没有引用等等。
这时我们只要确认它识别出来的准确度就可以了。这样实现的评分系统,速度更快,而且相对公平。为了证明机器判卷的准确性,犹他州教育委员会的评估发展协调员Cyndee Carter说,开始的时候他们非常谨慎,每一篇机器评分的文章同时也由老师审阅过。
但电脑评分被证明了是“准确的”,所以犹他州现在让机器成为绝大多数文章的唯一裁判。
一旦准确度被认可,那么机器判卷的优势非常明显,比如国外Pearson教育集团数据显示,人工阅卷最快的速度,阅卷人在每篇作文上最多只花两三分钟,平均1小时为30篇作文打分。而从事美国教育考试服务中心(E.T.S.)研究部主任大卫•威廉姆森(David Williamson)表示,该中心开发的自动化阅卷机 “电子评分器”(e-Rater)可以在 20 秒内评阅 1.6 万篇作文。
这就形成了强烈的对比,仅在速度上已经完胜传统的人工评卷方式。
但这就真的证明机器阅卷可以代替人工阅卷了吗?
然而,很多人并不认同。
“写作是一种艺术,而用算法来评估这种表达形式显然是荒谬的。”一位高中英语教师这样评论。
“人可以欣赏具有创造性的文章,机器将错过这些精彩的内容,比如:诗歌”一位文学爱好者同样质疑着。
当然,这些质疑确实值得我们思考,但都不是机器绝对做不到的,我们通过大数据思维去看这件事情,还是值得去探索的。
当下最大的质疑在于,我们人类仍然比机器聪明,假设我们的学生在写作文前,能够深度了解判卷教师的喜好,我相信他一定写出分数较高的作文。
而对于自动判卷机器,我们的学生或者我们的应试教育似乎会变得更加聪明,他们会造出高分作文模版,寻找高分攻略。他们会挖掘机器的规则,比如:机器对长文章评分可能更高,那么我们的学生可能会把经历放到发现这些特征上来,这就违背了我们教育的初衷。
甚至,自动评分的常年批判者Les Perelman,还设计了一种反机器判卷的程序用来揭露机器判卷的弱点和荒谬。这个“Babel”生成器("Basic Automatic B.S. Essay Language")的工作原理就像电脑上的文字游戏--米德比里斯(Mad Libs)一样,能够创造出毫无意义却可以从机器评分那儿获得高分的文章。
但对于机器判卷的程序来说,内容不重要,依旧可以得到高分。
这也说明了一个道理,一个出色的文学家,未必能够写出高分的作文。
虽然这样,我们研究机器判卷仍是一个趋势,并且随着人工智能技术不断的成熟,数据质量不断的提高,机器正努力的学习着,变得越来越聪明。
但不可否认,他还需要更久的时间。
领取专属 10元无门槛券
私享最新 技术干货