OpenAI要向出版商付费，终究是没有免费的午餐

兰舒凡
2024-01-07 18:24:04 3102

导读：

去年底，OpenAI的愿景展望中，GPT-5作为下一代人工智能模型赫然在列。据传，GPT-4的参数规模已达到惊人的1.5万亿，是GPT-3的数倍。由此，业界普遍预测，GPT-5的参数规模将再创新高，对数据的庞大需求也随之增加。

为了满足这一需求，OpenAI正积极筹备新语料的采购。去年12月，OpenAI与新闻出版巨头施普林格达成协议，支付费用使用施普林格旗下出版物的内容，为ChatGPT提供答案，并将其媒体内容作为训练数据。知识产权和内容主管Tom Rubin确认，OpenAI正在积极与媒体行业进行谈判。

然而，谈判过程中，海外出版商对OpenAI提供的费用持保留态度。部分高管表示，OpenAI愿意提供的费用范围在每年100万至500万美元之间，这在出版商看来，可能不足以覆盖成本。

OpenAI此举背后的驱动力在于数据需求的激增。随着GPT-4对数据的渴求，现有的公开数据源已无法满足需求。训练ChatGPT所依赖的45TB数据主要来自Common Crawl、维基百科和美国专利文件数据库，而《纽约时报》的贡献尤为显著，提供了超过1600万条内容。

面对版权争议，《纽约时报》指控OpenAI和微软未经授权使用其大量报道，以训练人工智能聊天机器人。这一事件揭示了版权问题的复杂性，尤其是在AI技术的快速发展下，数据获取与使用模式发生了根本变化。

为了应对版权问题，OpenAI采取了积极措施，与多家出版商展开合作，以获取所需的数据。然而，出版商对于OpenAI提供的费用感到不满，认为这种交易可能会削弱自身价值。《纽约时报》等出版商试图通过版权手段获取利益，以适应AI技术的挑战。

这一策略不仅关系到版权问题，还反映了传统媒体与新兴AI技术之间的博弈。在AI大模型的推动下，数据成为关键资源，这促使出版商寻求合理的回报机制。而OpenAI通过大规模数据采购，旨在维持其在AI领域的领先地位，同时确保数据获取的合法性。

结论：

在数据驱动的AI时代，出版商与AI技术提供商之间的关系正面临重塑。OpenAI等AI企业的崛起，不仅推动了技术的革新，也引发了关于数据所有权和使用权的深刻讨论。通过与出版商的合作，OpenAI展示了其对高质量数据的强烈需求，同时也凸显了传统媒体在数字化转型中的挑战与机遇。未来，双方如何在数据共享与价值分配之间找到平衡，将是影响AI发展与媒体生态的关键因素。

图灵汇

责任编辑：：兰舒凡

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

出版商付费午餐终究没有 OpenAI 免费

智慧评说

2024-01-17

导读：

结论：

京东朱雀系列新品登场！预约价799元，1月17日20:00准时开售