导览
智讯平台(公众号:zhidxcom) 编撰 | 芳草 编辑 | 李水青
智讯平台于8月21日公布了一则消息,艾伦人工智能研究所(AI2)在8月19日发布了用于训练大型语言模型的文本数据集Dolma。Dolma的容量惊人,达到了30,000亿个Token,成为迄今为止规模最大的开放文本数据集。
在AI领域的激烈竞争中,大多数科技巨头倾向于保护自家大型模型开发的细节。然而,AI2在官方博客中宣布,他们希望通过公开Dolma数据集及其后续大型模型的构建过程,为更多研究者提供一个基础平台,以促进研究和开发工作。
全面透明构建超700亿参数模型,预计2024年初上线
AI2由微软联合创始人保罗·艾伦于2014年创立,专注于开展具有深远影响的人工智能研究和工程,其目标是“人工智能服务于人类共同福祉”。2017年,AI2启动了孵化器项目AI2 Incubator,孵化出了被百度全盘收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等企业。
从2023年3月起,AI2致力于创建一个名为OLMo(Open Language Model)的开放生成语言模型,旨在促进大规模自然语言处理系统的研发。AI2计划在项目整个过程中公开所有制作成果和记录流程,以透明、开放的方式构建OLMo。
OLMo将具备700亿级别的参数规模,计划于2024年初完成。Dolma作为数据集的一部分,旨在为OLMo提供营养丰富的数据。其名称源于“Data to feed OLMo’s Appetite”,意在为OLMo的胃口提供所需的数据。
AI2坚信理想的资料集应具备开放性、代表性、规模性、可复现性以及风险规避性五大特征。
与GPT-4、Claude等强大而多功能的语言模型相比,它们的训练数据保密,AI2倡导改变这一现状,使数据集可以免费使用并接受监管,同时允许其他研究人员在此基础上构建更好的数据集。为了确保复现性,AI2将公开在准备数据集过程中使用的工具。
确保数据质量,AI2实施四大原则
在构建数据集时,可供选择的数据量庞大无比。AI2采用了以下四项原则来辅助数据选择:
业界最大公开文本数据集,规模超越Llama 2
相较于已公开的数据集,Dolma在两个方面具有显著优势:
规模优势:Dolma的数据量远超同类公开数据集,是当前规模最大的开放文本数据集之一。与之相比,RedPajama数据集规模为1.2万亿Token,主要用于训练Llama。Dolma的数据量几乎是RedPajama的两倍。Llama 2的训练数据集规模为2万亿Token,但并未公开。而GPT-3的训练数据集规模仅为0.4万亿Token。
许可证ImpACT:Dolma遵循AI2为AI人工制品制定的ImpACT许可证。该许可证以AI2的四大核心价值观命名:影响力(Impact)、责任(Accountability)、协作(Collaboration)和透明(Transparency)。它将人工制品分为低、中、高风险等级,并详细规定了使用、安装和衍生产品的分发方式。
结论:开放与透明激发新探索空间
AI2发布的Dolma数据集,作为迄今为止规模最大的开放文本数据集,为训练大型语言模型提供了丰富的资源。通过遵循风险规避等准则,AI2精心选择了多样化的数据,使其规模达到了30,000亿Token。
Dolma的公开透明化举措为大型数据集的开源设定了先例。在竞争激烈的AI领域,这一举措鼓励了其他研究人员在其基础上进行进一步的研究和开发,推动了产业的开放性和合作性发展。
来源:艾伦人工智能研究所官方博客