OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判
作者头像
  • 三诺
  • 2025-01-20 13:19:43 140

图灵汇报道

图灵汇 1 月 20 日消息,科技媒体 TechCrunch 最近的一篇报道指出,Epoch AI 因未及时披露 OpenAI 的资助而引起争议。这导致其开发的数学基准测试 FrontierMath 的公正性受到了质疑。

Epoch AI 是一个主要由 Open Philanthropy 资助的非营利组织。该组织推出了一项名为 FrontierMath 的基准测试,旨在通过一系列高级数学题来评估 AI 模型的数学能力。在这个测试中,OpenAI 的 o3 模型表现出色,准确率达到 25%,远超其他模型的约 2%。

然而,有承包商在论坛上反映,许多 FrontierMath 的贡献者在项目公开时才得知 OpenAI 参与了该基准的建立。他们认为,承包商在决定是否参与这项工作时应获得充分的信息透明度,以便了解其工作的潜在用途。

此外,几位参与 FrontierMath 设计的数学家表示,他们并未意识到 OpenAI 拥有对某些数据的独家访问权。如果事先知情,他们可能不会参与该项目。部分网友担心,这种缺乏透明度的做法可能会影响 FrontierMath 作为公正基准的地位。

Epoch AI 的副主任兼联合创始人 Tamay Besiroglu 表示,虽然 FrontierMath 的完整性未受影响,但承认在透明度方面存在不足。他提到,他们本应在合作之初就向贡献者提供更多透明信息。

AI 专家 Gary Marcus 将此事与 Theranos 丑闻相比较,认为其严重性不容忽视。Besiroglu 进一步解释说,尽管 OpenAI 可以访问大部分问题和答案,但有一个独立的数据集用于验证模型,以确保公正性。

Besiroglu 强调,尽管他们在合同上有一定限制,但在未来的合作中,透明度将成为他们与 OpenAI 协议中不可谈判的一部分。

    本文来源:互联网
责任编辑: : 三诺
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
碾压裁判选手质疑成绩数学又是OpenAIo3AI
    下一篇