开学季期间,美国的一款号称服务两万所学校的AI阅卷系统引发了争议。学生们发现,只要利用系统漏洞输入特定关键词,即便这些关键词毫无关联,也能轻松获得高分。
随着人工智能技术的进步,许多教育应用程序开始采用智能评分系统。这些系统能够快速阅卷并即时反馈成绩,受到了不少师生的喜爱。然而,也有一些家长对此类智能评分系统表达了不满。例如,某些英语跟读App的评分系统,有时连具备专业英语水平的人都只能获得80分的成绩。
除了用于英语口语评分,人工智能也被应用于自动阅卷。尽管如此,这种智能阅卷系统仍时有失误。据报道,这款服务于美国两万多所学校的AI阅卷系统也遭到了质疑。学生们通过发现并利用系统的漏洞,几乎不花时间准备就能轻松通过考试。这一现象的发生主要是因为该系统仅依赖于关键词匹配,而非全面评估学生的答题质量。
设定明确的评分标准
天津大学智能与计算学部的教授熊德意指出,自动评分系统通常需要预先设定清晰的评分标准,再根据这些标准设计相应的评分算法和模型。例如,对于口语评分,机器需要判断发音是否准确、句子重音是否得当、语句是否连贯等。而对于AI阅卷系统,则需要评估语法、语义等多个方面,这需要运用自然语言处理技术。
自然语言处理技术是人工智能的重要组成部分,它旨在让计算机智能化地处理人类语言。这项技术涵盖了从发音模式到篇章结构的七个层级,包括音位、形态、词汇、句法、语义、语用和篇章。这些技术常被应用于各种自然语言处理任务,如机器翻译、对话、问答和文档摘要等。自动阅卷系统通常会涉及这些层级中的多个方面。
不同AI评分系统差距显著
此次AI阅卷系统出现的问题源于一位美国历史系教授的儿子在考试中只获得了50%的成绩,而他的答案却被认为是合理的。同样的答案,人工评分和机器评分却产生了巨大差异。这反映了AI评分系统面临的挑战——如何与人工评分保持一致。为此,需要解决的问题包括制定合适的评分标准、应对语言多样性以及设计综合性评分指标等。
熊德意教授表示,不同的评分规则和出发点会导致不同的算法模型,从而产生不同的评分结果。这意味着单一的评分方法往往不够全面。例如,当母亲在答案中加入一些题目中的关键词,即使这些关键词之间没有联系,也能获得满分。这可能是因为该系统采用了简单的关键词匹配,导致了所谓的“关键词拼盘”现象。
此外,口语评分中的人工和机器评分也存在较大差异。尽管近年来语音识别技术有了显著进步,但在复杂环境中,识别准确率会大幅下降。一旦机器误判一个单词,后续的评分也会受到影响,最终导致评分结果的巨大差异。
结合人工评分提升系统
熊德意教授认为,传统的评分方法多基于符号计算,而现代的AI技术,特别是深度学习,正在改变这一现状。通过深度学习,可以将语言符号映射到连续的语义空间,从而更好地理解和评价语言的含义。这种方法在一定程度上可以应对语言多样性带来的挑战。然而,深度学习需要大量的数据支持,且成本较高。
近年来,基于自监督学习的预训练语言模型取得了显著进展。例如,OpenAI的GPT-3模型在海量数据集上训练,具有强大的语言处理能力。不过,这样的模型需要巨大的存储空间和高昂的训练成本,使得其实用性受限。因此,结合人工评分来复核和修正AI评分,有助于积累更多训练数据,使系统更加智能。
熊德意教授认为,利用自然语言处理等人工智能技术进一步完善主观智能评分系统,将是未来教育领域的重要课题。随着技术的进步,未来的AI阅卷系统将更加高效和智能,人工智能与教育的结合也将日益紧密。