研究发现：AI 越聪明就越有可能“胡编乱造”

新研究揭示，大型语言模型（LLM）虽日益强大，却也更易虚构事实，而非回避或拒答不知的问题。这显示，更智能的AI聊天机器人实际上变得更不可靠。

研究发表于《自然》杂志，聚焦于业界领先商业LLM：OpenAI的GPT、Meta的LLaMA，以及BigScience团队开发的开源模型BLOOM。研究发现，尽管回答质量有所提升，整体可靠性降低，错误答案比例高于旧模型。

瓦伦西亚人工智能研究所研究员José Hernández-Orallo指出，“它们几乎能解答所有问题，意味着更多正确答案的同时，也带来更多的错误答案”。格拉斯哥大学哲学家Mike Hicks则批评称，AI正“越来越擅长伪装成知识渊博”。

在数学、地理等各类主题测试中，模型需完成排序等任务。研究总结，更大、更强的模型提供了最准确答案，但在难题上表现欠佳，准确率较低。最大“谎言制造者”包括OpenAI的GPT-4和o1，所有被研究的LLM似乎均呈现此趋势。对于LLaMA系列，无一能达到60%的准确率，即使是基本问题也不例外。

当要求评估聊天机器人的回答准确性时，参与者的误判率在10%至40%之间。研究总结，AI模型规模越大（在参数、训练数据等因素方面），给出错误答案的可能性越高。

为解决此类问题，研究人员建议设置阈值，当问题具有挑战性时，让聊天机器人回应“我不知道”。若限制AI只回答其确知的内容，则可能揭示技术的局限性。

责任编辑：：李秦荣

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2024-10-04

AI 赋能游戏开发：Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法