在极客公园近期发布的高考新课标Ⅰ卷大模型评测报告中,我们见证了AI在学术竞技场上的最新进展。GPT-4在文科领域以562分的优异成绩脱颖而出,成为总分榜首。在国内产品中,字节跳动旗下的豆包以542.5分紧随其后,表现出色。百度文心一言4.0和百川智能“百小应”的成绩分别为537.5分和521分。
此次评测采用的高考题目与河南省考卷一致,河南省文科本科一批录取分数线为521分。这一结果意味着豆包等三款国产AI产品成功跨越了一本线门槛,展现了国产AI在高考领域的实力。
与文科相比,大模型在理科领域的表现稍显逊色,最高分仅为479分,多数产品的理科总分低于400分。与河南理科511分的一本线相比,大模型仍有一定差距。
大语言模型在语文和英语等语言类考试中展现出与人类考生竞争的能力。多款产品在客观题部分取得了满分或接近满分的成绩。得益于“主场优势”,三款国产大模型产品在语文考试中占据了前三名,得分分别为128分、125.5分和120.5分。然而,它们在语文写作部分的表现仍有待提升,尤其是在表达情感和丰富性方面。
在英语写作领域,大模型面临较大的挑战,最高分为29分。尽管如此,通过优化算法和深度学习技术,未来AI有可能克服这一难题,实现满分的可能。目前,AI在写作能力的提升上还有巨大的潜力等待挖掘。
在文综(含历史、地理、政治)考卷的评测中,GPT-4在文科综合科目上获得了237分的高分,平均分达到了79分,显示出与多数人类考生相近的水平。其中,豆包在文综成绩中表现最为突出,总分达到了224.5分,尤其在历史科目上以82.5分的成绩位列第一。
在数学、物理、化学等数理学科上,大模型与人类顶尖考生之间的差距显著。所有大模型均未能达到及格水平。尽管在语文和英语领域取得高分,但大模型的理科成绩尚无法进入人类考生的前30%。在数学试卷中,仅少数模型如豆包等能获得60分以上的成绩。对于复杂推导和证明问题,AI的解决能力仍有待提升。
总体而言,大模型在高考中的表现既展示了其在特定领域内的潜力,也揭示了在数理等学科上的挑战。随着AI技术的不断进步和优化,未来AI在高考乃至更广泛的学术领域内的表现值得期待。然而,实现与人类考生同等水平的竞争,AI还需在多方面持续努力,特别是在理解复杂概念、灵活应用知识以及创造性思维等方面。