近期,一篇关于“利用大型语言模型探索麻省理工学院数学与电气工程与计算机科学(EECS)课程”的研究引起了广泛讨论。这篇论文原本探讨了如何从MIT数学、EECS专业课程的问题、期中考试和期末考试中整理出一个包含4550个问题和答案的综合数据库,并使用各种大型语言模型解答这些问题,最终得出GPT-4几乎能够通过MIT的EECS和数学本科考试的结论。
然而,这一结论很快受到质疑,批评主要集中在研究的方法论和严谨性上,而非大型语言模型的能力。质疑者指出数据集本身存在问题,且使用GPT-4自动评分的方法也有瑕疵。研究团队并未对此作出即时回应,直至上周日才由几位论文作者——包括MIT EECS教授和CSAIL首席运营官/副主任Armando Solar-Lezama、MIT机械工程教授Tonio Buonassisi和MIT EECS助理教授Yoon Kim——发布了一份官方声明。
声明中指出,论文作者之一Iddo Drori在未取得所有相关导师同意的情况下收集了用于论文研究的数据集。部分涉及课程的导师在论文发布后,即在社交媒体上和未经授权的数据样本发布后,才发现自己的课程材料已被包含在内。声明强调,数据集的收集过程存在严重问题,论文不应被发表且已要求从ArXiv撤回。声明还指出,论文中所有学生作者都投入了大量工作,如果数据收集过程得到所有人的同意,那么这本可以是一篇有价值的论文。声明最后强调,GPT-4无法获得麻省理工学院的学位。
此次事件引发了广泛的讨论,一些人对声明的回应表示不满,认为声明避重就轻,只关注未经同意使用数据的问题,而忽略了数据伪造和评估过程的问题。有人指出,让GPT-4给自己的生成答案评分,这并不足以证明其价值。此外,Iddo Drori个人主页的更新显示他已经删除了“MIT客座教授”的头衔,并将在本月结束在MIT的访问职位。
这次事件突显了人工智能领域研究中可能存在的方法论和伦理问题,尤其是在快速发展的AI技术背景下,研究过程中可能会出现的捷径和潜在风险。批评者指出,使用基于语言的模型自我评估准确性是当前研究中一个值得关注的趋势,这种做法可能掩盖了研究过程中的关键问题和挑战。对于此次事件,公众和学术界都在期待进一步的澄清和反思,以确保研究的诚信和科学方法的严格应用。