报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

陈巧说
2024-04-07 10:15:44 3085

概要：

近期，科技媒体关注到AI领域在获取高质量训练数据时面临的挑战。《纽约时报》对此进行了深入探讨，特别聚焦于AI公司在数据获取策略上的创新与争议。报道指出，OpenAI作为行业先锋，正面临数据枯竭的问题，并且在探索包括YouTube视频在内的新型数据来源。这一做法触及了AI版权法的灰色地带，引发业界广泛关注。

详情：

在4月7日的报道中，科技界的目光聚焦于AI公司在训练数据获取方面的困境。《华尔街日报》此前揭示了AI产业在搜集高质量训练数据时遇到的难题。而《纽约时报》则进一步剖析了AI公司为解决这一问题所采取的方法，其中不乏触及版权法边缘的尝试。

OpenAI，作为AI领域的领头羊，迫切需要丰富多元的数据集来训练其先进的人工智能模型。为此，该团队开发了Whisper音频转录模型，成功地将超过一百万小时的YouTube视频转化为训练素材，以此打造了其最前沿的大型语言模型——GPT-4。这一举措在一定程度上缓解了数据供应的压力，但也引发了版权法的质疑。

早在2021年，OpenAI就因数据资源耗尽而陷入困境。在探索各种可能的数据来源后，他们将目光投向了YouTube视频、播客、有声读物等。同时，OpenAI还利用了来自GitHub的代码库、国际象棋走棋数据库以及Quizlet的习题内容。这些行动虽然为模型训练提供了丰富的素材，但同时也触及了版权法的灰色区域。

OpenAI的总裁Greg Brockman亲自参与了视频的收集工作。对此，Lindsay Held代表OpenAI回应称，公司为每个模型精心设计了独特的数据集，旨在帮助模型更好地理解世界，并保持在全球研究领域的竞争力。她还表示，OpenAI从公开数据和合作伙伴处获取多种来源的数据，并考虑生成自有的合成数据。

另一方面，谷歌对此事保持谨慎态度，表示已注意到有关OpenAI活动的未经证实报道，并强调其robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容。然而，YouTube首席执行官Neal Mohan公开警告称，尽管缺乏直接证据，但使用YouTube视频进行训练的行为可能违反了平台的服务条款。

Meta同样面临数据获取的挑战。在其内部讨论中，Meta的AI团队曾考虑过未经许可使用版权作品的可能性。为了追赶OpenAI的脚步，他们探索了互联网上几乎所有的英语书籍、散文、诗歌和新闻文章作为潜在的训练素材来源。这其中包括了支付版权费用或直接收购大型出版社的可能性。

结论：

随着AI技术的飞速发展，数据获取成为了推动创新的关键因素。然而，这一过程中所涉及的版权法问题不容忽视。从OpenAI到谷歌、Meta等巨头的实践与策略，不仅反映了AI领域在数据获取上的紧迫需求，也凸显了相关法规在快速变化的技术背景下面临的挑战。未来，如何在技术创新与法律法规之间寻求平衡，将是AI行业发展的重要议题之一。

图灵汇

责任编辑：：陈巧说

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。