近期,一项由斯坦福大学和加州大学伯克利分校的研究人员共同完成的研究揭示了人工智能语言模型ChatGPT性能下滑的现象。研究指出,ChatGPT在特定时间内的行为发生了显著变化,并且并未表现出改善趋势。这一发现引发了学界与业界的普遍关注,尤其当面对无法解释的性能恶化时。
为了评估ChatGPT在GPT-3.5与GPT-4版本之间的表现一致性,研究团队设计了一系列测试,包括解决数学问题、应对敏感与危险问题、基于提示进行视觉推理以及生成代码。结果表明,这些模型的行为在较短时间内可能发生重大变化,强调了持续监控语言模型质量的必要性。
以GPT-4为例,研究显示其在2023年3月识别质数的准确率高达98%,然而到了同年6月,这一准确率急剧下降至不足3%。与此形成对比的是,同一时期GPT-3.5的质数识别能力有所提升。在生成计算机代码方面,两个版本在3月与6月间的性能均有所退步。
这些差异对实际应用产生了影响,尤其是在医疗健康领域的查询回答上。纽约大学的研究小组发现,ChatGPT在语气和措辞上与人类医疗专业人员的回答难辨真假,引起了人们对AI处理医疗数据隐私及生成不准确信息倾向的关注。
不仅如此,学术界与行业内部对ChatGPT性能下降的讨论也日益增多。开发者论坛上,用户纷纷表达了对于ChatGPT质量下降的担忧,有人甚至将其比喻为“从出色的副厨变成了洗碗工”。这一现象引起了广泛讨论,包括关于强化学习人类反馈(RLHF)技术可能遇到的瓶颈问题,以及潜在的系统错误。
尽管ChatGPT通过了基本的图灵测试,但其不均衡的质量表现仍构成公众的重大挑战与担忧。随着AI技术的不断普及,如何确保其在各领域的可靠性和安全性成为亟待解决的问题。
请注意,本文内容主要基于原创、合作伙伴供稿及第三方自媒体投稿,旨在提供参考信息。所有信息仅供参考,使用前需进一步核实。对信息的准确性及可靠性不作任何担保,读者应自行承担使用信息的风险。如发现内容涉嫌侵权或不实,请及时联系我们提供相关证明材料,我们将依法处理。