OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判

图灵汇 1 月 20 日消息，科技媒体 TechCrunch 最近的一篇报道指出，Epoch AI 因未及时披露 OpenAI 的资助而引起争议。这导致其开发的数学基准测试 FrontierMath 的公正性受到了质疑。

Epoch AI 是一个主要由 Open Philanthropy 资助的非营利组织。该组织推出了一项名为 FrontierMath 的基准测试，旨在通过一系列高级数学题来评估 AI 模型的数学能力。在这个测试中，OpenAI 的 o3 模型表现出色，准确率达到 25%，远超其他模型的约 2%。

然而，有承包商在论坛上反映，许多 FrontierMath 的贡献者在项目公开时才得知 OpenAI 参与了该基准的建立。他们认为，承包商在决定是否参与这项工作时应获得充分的信息透明度，以便了解其工作的潜在用途。

此外，几位参与 FrontierMath 设计的数学家表示，他们并未意识到 OpenAI 拥有对某些数据的独家访问权。如果事先知情，他们可能不会参与该项目。部分网友担心，这种缺乏透明度的做法可能会影响 FrontierMath 作为公正基准的地位。

Epoch AI 的副主任兼联合创始人 Tamay Besiroglu 表示，虽然 FrontierMath 的完整性未受影响，但承认在透明度方面存在不足。他提到，他们本应在合作之初就向贡献者提供更多透明信息。

AI 专家 Gary Marcus 将此事与 Theranos 丑闻相比较，认为其严重性不容忽视。Besiroglu 进一步解释说，尽管 OpenAI 可以访问大部分问题和答案，但有一个独立的数据集用于验证模型，以确保公正性。

Besiroglu 强调，尽管他们在合同上有一定限制，但在未来的合作中，透明度将成为他们与 OpenAI 协议中不可谈判的一部分。

责任编辑：：三诺

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2025-01-15

微软为企业推出 Copilot Chat：提供免费 AI 聊天和按需付费 AI 代理功能