去年底,OpenAI的愿景展望中,GPT-5作为下一代人工智能模型赫然在列。据传,GPT-4的参数规模已达到惊人的1.5万亿,是GPT-3的数倍。由此,业界普遍预测,GPT-5的参数规模将再创新高,对数据的庞大需求也随之增加。
为了满足这一需求,OpenAI正积极筹备新语料的采购。去年12月,OpenAI与新闻出版巨头施普林格达成协议,支付费用使用施普林格旗下出版物的内容,为ChatGPT提供答案,并将其媒体内容作为训练数据。知识产权和内容主管Tom Rubin确认,OpenAI正在积极与媒体行业进行谈判。
然而,谈判过程中,海外出版商对OpenAI提供的费用持保留态度。部分高管表示,OpenAI愿意提供的费用范围在每年100万至500万美元之间,这在出版商看来,可能不足以覆盖成本。
OpenAI此举背后的驱动力在于数据需求的激增。随着GPT-4对数据的渴求,现有的公开数据源已无法满足需求。训练ChatGPT所依赖的45TB数据主要来自Common Crawl、维基百科和美国专利文件数据库,而《纽约时报》的贡献尤为显著,提供了超过1600万条内容。
面对版权争议,《纽约时报》指控OpenAI和微软未经授权使用其大量报道,以训练人工智能聊天机器人。这一事件揭示了版权问题的复杂性,尤其是在AI技术的快速发展下,数据获取与使用模式发生了根本变化。
为了应对版权问题,OpenAI采取了积极措施,与多家出版商展开合作,以获取所需的数据。然而,出版商对于OpenAI提供的费用感到不满,认为这种交易可能会削弱自身价值。《纽约时报》等出版商试图通过版权手段获取利益,以适应AI技术的挑战。
这一策略不仅关系到版权问题,还反映了传统媒体与新兴AI技术之间的博弈。在AI大模型的推动下,数据成为关键资源,这促使出版商寻求合理的回报机制。而OpenAI通过大规模数据采购,旨在维持其在AI领域的领先地位,同时确保数据获取的合法性。
在数据驱动的AI时代,出版商与AI技术提供商之间的关系正面临重塑。OpenAI等AI企业的崛起,不仅推动了技术的革新,也引发了关于数据所有权和使用权的深刻讨论。通过与出版商的合作,OpenAI展示了其对高质量数据的强烈需求,同时也凸显了传统媒体在数字化转型中的挑战与机遇。未来,双方如何在数据共享与价值分配之间找到平衡,将是影响AI发展与媒体生态的关键因素。