艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2
作者头像
  • 段玮玲
  • 2023-08-23 18:28:41 3005

导览

智讯平台(公众号:zhidxcom) 编撰 | 芳草 编辑 | 李水青

智讯平台于8月21日公布了一则消息,艾伦人工智能研究所(AI2)在8月19日发布了用于训练大型语言模型的文本数据集Dolma。Dolma的容量惊人,达到了30,000亿个Token,成为迄今为止规模最大的开放文本数据集。

在AI领域的激烈竞争中,大多数科技巨头倾向于保护自家大型模型开发的细节。然而,AI2在官方博客中宣布,他们希望通过公开Dolma数据集及其后续大型模型的构建过程,为更多研究者提供一个基础平台,以促进研究和开发工作。


全面透明构建超700亿参数模型,预计2024年初上线

AI2由微软联合创始人保罗·艾伦于2014年创立,专注于开展具有深远影响的人工智能研究和工程,其目标是“人工智能服务于人类共同福祉”。2017年,AI2启动了孵化器项目AI2 Incubator,孵化出了被百度全盘收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等企业。

从2023年3月起,AI2致力于创建一个名为OLMo(Open Language Model)的开放生成语言模型,旨在促进大规模自然语言处理系统的研发。AI2计划在项目整个过程中公开所有制作成果和记录流程,以透明、开放的方式构建OLMo。

OLMo将具备700亿级别的参数规模,计划于2024年初完成。Dolma作为数据集的一部分,旨在为OLMo提供营养丰富的数据。其名称源于“Data to feed OLMo’s Appetite”,意在为OLMo的胃口提供所需的数据。

AI2坚信理想的资料集应具备开放性、代表性、规模性、可复现性以及风险规避性五大特征。

与GPT-4、Claude等强大而多功能的语言模型相比,它们的训练数据保密,AI2倡导改变这一现状,使数据集可以免费使用并接受监管,同时允许其他研究人员在此基础上构建更好的数据集。为了确保复现性,AI2将公开在准备数据集过程中使用的工具。


确保数据质量,AI2实施四大原则

在构建数据集时,可供选择的数据量庞大无比。AI2采用了以下四项原则来辅助数据选择:

  1. 遵循现有做法:通过匹配创建其他语言数据集的方法,使得更广泛的研究界能够利用Dolma间接探索现有或正在开发的大型语言模型。
  2. 合理运用评估套件:在影响某一任务的数据决策时,选择能够提升指标的干预措施。例如,Dolma中增加了维基百科文本,以增强K-12科学知识任务的表现。
  3. 倾向有益决策:并非所有数据集决策都直接关联于基准性能,如添加包含代码的文档可能降低某些文本基准测试的性能。AI2倾向于为研究方向引入更有益的决策。
  4. 风险规避:与法律道德专家进行交流,根据其反馈评估数据设计决策,以避免潜在风险。

业界最大公开文本数据集,规模超越Llama 2

相较于已公开的数据集,Dolma在两个方面具有显著优势:

  1. 规模优势:Dolma的数据量远超同类公开数据集,是当前规模最大的开放文本数据集之一。与之相比,RedPajama数据集规模为1.2万亿Token,主要用于训练Llama。Dolma的数据量几乎是RedPajama的两倍。Llama 2的训练数据集规模为2万亿Token,但并未公开。而GPT-3的训练数据集规模仅为0.4万亿Token。

  2. 许可证ImpACT:Dolma遵循AI2为AI人工制品制定的ImpACT许可证。该许可证以AI2的四大核心价值观命名:影响力(Impact)、责任(Accountability)、协作(Collaboration)和透明(Transparency)。它将人工制品分为低、中、高风险等级,并详细规定了使用、安装和衍生产品的分发方式。


结论:开放与透明激发新探索空间

AI2发布的Dolma数据集,作为迄今为止规模最大的开放文本数据集,为训练大型语言模型提供了丰富的资源。通过遵循风险规避等准则,AI2精心选择了多样化的数据,使其规模达到了30,000亿Token。

Dolma的公开透明化举措为大型数据集的开源设定了先例。在竞争激烈的AI领域,这一举措鼓励了其他研究人员在其基础上进行进一步的研究和开发,推动了产业的开放性和合作性发展。


来源:艾伦人工智能研究所官方博客

    本文来源:图灵汇
责任编辑: : 段玮玲
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
艾伦万亿包含文本业界超过推出数据Tokens最大
    下一篇