研究发现:AI 越聪明就越有可能“胡编乱造”
作者头像
  • 李秦荣
  • 2024-09-29 13:20:36 71

新研究揭示,大型语言模型(LLM)虽日益强大,却也更易虚构事实,而非回避或拒答不知的问题。这显示,更智能的AI聊天机器人实际上变得更不可靠。

研究发表于《自然》杂志,聚焦于业界领先商业LLM:OpenAI的GPT、Meta的LLaMA,以及BigScience团队开发的开源模型BLOOM。研究发现,尽管回答质量有所提升,整体可靠性降低,错误答案比例高于旧模型。

瓦伦西亚人工智能研究所研究员José Hernández-Orallo指出,“它们几乎能解答所有问题,意味着更多正确答案的同时,也带来更多的错误答案”。格拉斯哥大学哲学家Mike Hicks则批评称,AI正“越来越擅长伪装成知识渊博”。

在数学、地理等各类主题测试中,模型需完成排序等任务。研究总结,更大、更强的模型提供了最准确答案,但在难题上表现欠佳,准确率较低。最大“谎言制造者”包括OpenAI的GPT-4和o1,所有被研究的LLM似乎均呈现此趋势。对于LLaMA系列,无一能达到60%的准确率,即使是基本问题也不例外。

当要求评估聊天机器人的回答准确性时,参与者的误判率在10%至40%之间。研究总结,AI模型规模越大(在参数、训练数据等因素方面),给出错误答案的可能性越高。

为解决此类问题,研究人员建议设置阈值,当问题具有挑战性时,让聊天机器人回应“我不知道”。若限制AI只回答其确知的内容,则可能揭示技术的局限性。

    本文来源:图灵汇
责任编辑: : 李秦荣
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
胡编乱造聪明可能发现研究
    下一篇