OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格
作者头像
  • 黄婷
  • 2024-10-31 18:40:09 22

导读:

OpenAI 推出了 SimpleQA,这是一个专门用于检测大模型在回答事实性问题时准确性的基准测试工具,现已正式开源。

改写内容:

OpenAI 最近发布了一款名为 SimpleQA 的工具,这是一个专注于评估大模型在回答事实性问题时准确性的基准测试平台,现已公开源代码。SimpleQA 包含了 4000 个由人类编写的、明确无歧义的事实性问题,这些题目具有很高的挑战性,即使是当前最先进的一些模型,如 o1-preview 和 Claude Sonnet 3.5,其准确率也不到 50%。

所有问题均经过精心设计,参考答案需经过两位独立标注员的验证,确保其准确性和可靠性,同时也具备时效性。此外,SimpleQA 还能测量大模型的“校准”程度,即模型能否准确评估自己的知识边界,做到“知之为知之,不知为不知”。

尽管 SimpleQA 在准确性方面表现出色,但它主要适用于那些具有单一可验证答案的简短事实查询环境。这意味着,它对于衡量大模型处理复杂任务的能力仍有局限。

图片

(此处保留图片标签)

开源链接:

https://github.com/openai/simple-evals/

参考资料:

https://openai.com/index/introducing-simpleqa

https://cdn.openai.com/papers/simpleqa.pdf

    本文来源:互联网
责任编辑: : 黄婷
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
专治实测胡说八道及格SimpleQA模型推出ClaudeOpenAI3.5
    下一篇