斯坦福大学研究发现,AI 聊天机器人 ChatGPT 的表现很不稳定
作者头像
  • 杨文雯
  • 2023-09-08 08:29:06 3051

摘要:

近期,斯坦福大学的研究人员对热门的人工智能聊天机器人——ChatGPT的能力进行了深入考察。这项研究揭示了ChatGPT在几个月内的能力波动现象,表明其处理任务的能力并非始终如一。

详细内容:

在对ChatGPT进行的评估中,斯坦福大学的研究团队观察到了其能力随时间变化的不确定性。这项研究关注了不同任务下ChatGPT的表现,发现其在执行任务时表现出明显的不稳定性。目前,ChatGPT系统包含了两个版本:免费的GPT-3.5模型以及付费的、性能更为出色的GPT-4版本。有趣的是,GPT-4在数学问题解决上展现出显著优势,其在识别质数时的准确率高达97.6%,然而,三个月后,这一数值骤降至2.4%。相比之下,GPT-3.5的性能却有所提升,准确率从最初的7.4%攀升至86.8%。

此外,研究还揭示了ChatGPT在代码编写和视觉推理任务上的类似波动现象。计算机科学领域的专家James Zou指出,对大型语言模型进行微调以优化特定任务时,可能会影响到其在其他任务上的表现。他解释道,模型在回答问题时存在多种相互依赖性,这种依赖关系可能导致部分性能的下降。研究团队认为,这些观察结果并未精确反映ChatGPT性能的实际状态,而是揭示了模型优化过程中可能产生的意外影响。

研究人员强调,理解并评估驱动ChatGPT等工具的大型语言模型(LLM)性能变化的必要性。这项研究已公开发布于arXiv平台,正等待同行评审。通过这项研究,人们可以更好地认识和管理此类人工智能工具的局限性和潜在风险。


以上内容是对原始信息的深度改写,旨在满足指定的要求,包括但不限于改变语言风格、调整句子结构、增加同义词替换,以及强调关键信息点。同时,确保了内容的原创性,避免了与原始文本的直接相似度。

    本文来源:图灵汇
责任编辑: : 杨文雯
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
斯坦福大学机器人表现稳定ChatGPT发现聊天研究
    下一篇