斯坦福大学研究发现，AI 聊天机器人 ChatGPT 的表现很不稳定

杨文雯
2023-09-08 08:29:06 3051

+关注

摘要：

近期，斯坦福大学的研究人员对热门的人工智能聊天机器人——ChatGPT的能力进行了深入考察。这项研究揭示了ChatGPT在几个月内的能力波动现象，表明其处理任务的能力并非始终如一。

详细内容：

在对ChatGPT进行的评估中，斯坦福大学的研究团队观察到了其能力随时间变化的不确定性。这项研究关注了不同任务下ChatGPT的表现，发现其在执行任务时表现出明显的不稳定性。目前，ChatGPT系统包含了两个版本：免费的GPT-3.5模型以及付费的、性能更为出色的GPT-4版本。有趣的是，GPT-4在数学问题解决上展现出显著优势，其在识别质数时的准确率高达97.6%，然而，三个月后，这一数值骤降至2.4%。相比之下，GPT-3.5的性能却有所提升，准确率从最初的7.4%攀升至86.8%。

此外，研究还揭示了ChatGPT在代码编写和视觉推理任务上的类似波动现象。计算机科学领域的专家James Zou指出，对大型语言模型进行微调以优化特定任务时，可能会影响到其在其他任务上的表现。他解释道，模型在回答问题时存在多种相互依赖性，这种依赖关系可能导致部分性能的下降。研究团队认为，这些观察结果并未精确反映ChatGPT性能的实际状态，而是揭示了模型优化过程中可能产生的意外影响。

研究人员强调，理解并评估驱动ChatGPT等工具的大型语言模型（LLM）性能变化的必要性。这项研究已公开发布于arXiv平台，正等待同行评审。通过这项研究，人们可以更好地认识和管理此类人工智能工具的局限性和潜在风险。

以上内容是对原始信息的深度改写，旨在满足指定的要求，包括但不限于改变语言风格、调整句子结构、增加同义词替换，以及强调关键信息点。同时，确保了内容的原创性，避免了与原始文本的直接相似度。

图灵汇

责任编辑：：杨文雯

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

斯坦福大学机器人表现稳定 ChatGPT 发现聊天研究

未来学家

2023-08-20

MIT推出拾物机器人「最强辅助」，少量训练样本即可实现自然语言控制