艾伦AI推出业界最大文本数据集，包含3万亿Tokens，超过Llama 2

段玮玲
2023-08-23 18:28:41 3005

+关注

导览

智讯平台（公众号：zhidxcom）编撰 | 芳草编辑 | 李水青

智讯平台于8月21日公布了一则消息，艾伦人工智能研究所（AI2）在8月19日发布了用于训练大型语言模型的文本数据集Dolma。Dolma的容量惊人，达到了30,000亿个Token，成为迄今为止规模最大的开放文本数据集。

在AI领域的激烈竞争中，大多数科技巨头倾向于保护自家大型模型开发的细节。然而，AI2在官方博客中宣布，他们希望通过公开Dolma数据集及其后续大型模型的构建过程，为更多研究者提供一个基础平台，以促进研究和开发工作。

全面透明构建超700亿参数模型，预计2024年初上线

AI2由微软联合创始人保罗·艾伦于2014年创立，专注于开展具有深远影响的人工智能研究和工程，其目标是“人工智能服务于人类共同福祉”。2017年，AI2启动了孵化器项目AI2 Incubator，孵化出了被百度全盘收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等企业。

从2023年3月起，AI2致力于创建一个名为OLMo（Open Language Model）的开放生成语言模型，旨在促进大规模自然语言处理系统的研发。AI2计划在项目整个过程中公开所有制作成果和记录流程，以透明、开放的方式构建OLMo。

OLMo将具备700亿级别的参数规模，计划于2024年初完成。Dolma作为数据集的一部分，旨在为OLMo提供营养丰富的数据。其名称源于“Data to feed OLMo’s Appetite”，意在为OLMo的胃口提供所需的数据。

AI2坚信理想的资料集应具备开放性、代表性、规模性、可复现性以及风险规避性五大特征。

与GPT-4、Claude等强大而多功能的语言模型相比，它们的训练数据保密，AI2倡导改变这一现状，使数据集可以免费使用并接受监管，同时允许其他研究人员在此基础上构建更好的数据集。为了确保复现性，AI2将公开在准备数据集过程中使用的工具。

确保数据质量，AI2实施四大原则

在构建数据集时，可供选择的数据量庞大无比。AI2采用了以下四项原则来辅助数据选择：

遵循现有做法：通过匹配创建其他语言数据集的方法，使得更广泛的研究界能够利用Dolma间接探索现有或正在开发的大型语言模型。
合理运用评估套件：在影响某一任务的数据决策时，选择能够提升指标的干预措施。例如，Dolma中增加了维基百科文本，以增强K-12科学知识任务的表现。
倾向有益决策：并非所有数据集决策都直接关联于基准性能，如添加包含代码的文档可能降低某些文本基准测试的性能。AI2倾向于为研究方向引入更有益的决策。
风险规避：与法律道德专家进行交流，根据其反馈评估数据设计决策，以避免潜在风险。

业界最大公开文本数据集，规模超越Llama 2

相较于已公开的数据集，Dolma在两个方面具有显著优势：

规模优势：Dolma的数据量远超同类公开数据集，是当前规模最大的开放文本数据集之一。与之相比，RedPajama数据集规模为1.2万亿Token，主要用于训练Llama。Dolma的数据量几乎是RedPajama的两倍。Llama 2的训练数据集规模为2万亿Token，但并未公开。而GPT-3的训练数据集规模仅为0.4万亿Token。
许可证ImpACT：Dolma遵循AI2为AI人工制品制定的ImpACT许可证。该许可证以AI2的四大核心价值观命名：影响力（Impact）、责任（Accountability）、协作（Collaboration）和透明（Transparency）。它将人工制品分为低、中、高风险等级，并详细规定了使用、安装和衍生产品的分发方式。

结论：开放与透明激发新探索空间

AI2发布的Dolma数据集，作为迄今为止规模最大的开放文本数据集，为训练大型语言模型提供了丰富的资源。通过遵循风险规避等准则，AI2精心选择了多样化的数据，使其规模达到了30,000亿Token。

Dolma的公开透明化举措为大型数据集的开源设定了先例。在竞争激烈的AI领域，这一举措鼓励了其他研究人员在其基础上进行进一步的研究和开发，推动了产业的开放性和合作性发展。

来源：艾伦人工智能研究所官方博客

图灵汇

责任编辑：：段玮玲

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。