近期,科技媒体关注到AI领域在获取高质量训练数据时面临的挑战。《纽约时报》对此进行了深入探讨,特别聚焦于AI公司在数据获取策略上的创新与争议。报道指出,OpenAI作为行业先锋,正面临数据枯竭的问题,并且在探索包括YouTube视频在内的新型数据来源。这一做法触及了AI版权法的灰色地带,引发业界广泛关注。
在4月7日的报道中,科技界的目光聚焦于AI公司在训练数据获取方面的困境。《华尔街日报》此前揭示了AI产业在搜集高质量训练数据时遇到的难题。而《纽约时报》则进一步剖析了AI公司为解决这一问题所采取的方法,其中不乏触及版权法边缘的尝试。
OpenAI,作为AI领域的领头羊,迫切需要丰富多元的数据集来训练其先进的人工智能模型。为此,该团队开发了Whisper音频转录模型,成功地将超过一百万小时的YouTube视频转化为训练素材,以此打造了其最前沿的大型语言模型——GPT-4。这一举措在一定程度上缓解了数据供应的压力,但也引发了版权法的质疑。
早在2021年,OpenAI就因数据资源耗尽而陷入困境。在探索各种可能的数据来源后,他们将目光投向了YouTube视频、播客、有声读物等。同时,OpenAI还利用了来自GitHub的代码库、国际象棋走棋数据库以及Quizlet的习题内容。这些行动虽然为模型训练提供了丰富的素材,但同时也触及了版权法的灰色区域。
OpenAI的总裁Greg Brockman亲自参与了视频的收集工作。对此,Lindsay Held代表OpenAI回应称,公司为每个模型精心设计了独特的数据集,旨在帮助模型更好地理解世界,并保持在全球研究领域的竞争力。她还表示,OpenAI从公开数据和合作伙伴处获取多种来源的数据,并考虑生成自有的合成数据。
另一方面,谷歌对此事保持谨慎态度,表示已注意到有关OpenAI活动的未经证实报道,并强调其robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容。然而,YouTube首席执行官Neal Mohan公开警告称,尽管缺乏直接证据,但使用YouTube视频进行训练的行为可能违反了平台的服务条款。
Meta同样面临数据获取的挑战。在其内部讨论中,Meta的AI团队曾考虑过未经许可使用版权作品的可能性。为了追赶OpenAI的脚步,他们探索了互联网上几乎所有的英语书籍、散文、诗歌和新闻文章作为潜在的训练素材来源。这其中包括了支付版权费用或直接收购大型出版社的可能性。
随着AI技术的飞速发展,数据获取成为了推动创新的关键因素。然而,这一过程中所涉及的版权法问题不容忽视。从OpenAI到谷歌、Meta等巨头的实践与策略,不仅反映了AI领域在数据获取上的紧迫需求,也凸显了相关法规在快速变化的技术背景下面临的挑战。未来,如何在技术创新与法律法规之间寻求平衡,将是AI行业发展的重要议题之一。