FlagOpen大模型技术开源体系，开启大模型时代“新Linux”生态

雷民潋
2023-03-01 00:00:00 3026

引言

当前人工智能发展步入新阶段，大数据、大算力、强算法融合成为核心技术路径，其中语言大模型ChatGPT引领了普及应用的新浪潮。智源研究院前瞻性地组建大模型攻关团队，于2021年6月推出悟道2.0——当时规模领先、性能卓越的多模态大模型。在此背景下，2023年初，智源研究院联合30多家产学研单位，共同承担起“人工智能基础模型支撑平台与评测技术”旗舰项目，致力于打造全面支撑大模型技术发展的开源算法体系与一站式基础软件平台，以促进协同创新、开放竞争，共建大模型时代的“新Linux”开源开放生态。

政策与项目启动

北京市副市长于英杰与科技部高新司副司长梅建平出席了项目启动会议并发表致辞。于英杰强调，大模型研发是一项体系化工程，涉及数据、算法、算力与训练基础设施等多个层面。智源研究院发布的FlagOpen大模型技术开源体系，是智源及其生态合作伙伴在技术攻关方面的集体成果展示，为大模型技术创新提供了“北京贡献”。梅建平则指出，科技部自2021年起超前布局大模型旗舰项目群，旨在构建开源开放的大模型创新生态体系，其中“人工智能基础模型支撑平台与评测技术”旗舰项目占据核心地位，集合了智源研究院与众多产学研单位的力量。

FlagOpen大模型技术开源体系

FlagOpen（飞智）大模型技术开源体系是智源研究院与多家企业、高校和科研机构共同打造的一站式、高质量大模型开源开放软件体系，涵盖算法、模型、数据、工具、评测等关键组件，旨在构建大模型领域的“Linux”生态。通过FlagOpen，全球开发者能够便捷地开展大模型尝试、开发和研究，企业则能以较低门槛投身大模型研发。

技术亮点与贡献

FlagOpen集成全球主流大模型算法技术，支持高效训练和微调，涵盖了包括语言大模型OPT、T5，视觉大模型ViT、Swin Transformer，多模态大模型CLIP等在内的多个领域明星模型。智源研究院将持续将悟道系列成果开源至FlagAI，涵盖悟道2.0通用语言大模型GLM、悟道3.0视觉预训练大模型EVA、视觉通用多任务模型Painter、文生图大模型AltDiffusion（多语言）、文图表征预训练大模型（多语言）、EVA-CLIP（英文）、阿拉伯语大模型ALM、百亿语言基础模型CPM3等。此外，FlagOpen还与Linux基金会等全球开源组织紧密合作，吸引全球科研力量共同创新、贡献。

合作与生态建设

FlagOpen致力于与Linux基金会、启智社区等全球开源代表组织合作，共建面向全球的大模型技术开源生态。全球最大的AI领域开源基金会Linux AI & DATA基金会主席堵俊平高度评价FlagOpen，认为其发布标志着人工智能大模型时代开源创新生态建设的重要进展。Stability AI全球产品副总裁Christian Cantrell表示，FlagAI的多语言文图模型能力为打造更多语言的扩散生成模型提供了基础，智源研究院的大模型技术体系开源对全球大模型创新和开放合作具有重要意义。

教育与人才培养

为推动人工智能大模型时代的技术普及，智源研究院开放了中文世界首个开放数据标注平台OpenLabel，并与CSDN合作启动“数据飞轮”开放数据互助公益计划。该计划旨在建设动态开放的重要大型数据集，为大模型训练提供丰富权威的数据来源。智源研究院通过与多所顶尖高校联动，面向交叉学科背景学生与相关领域学者推出大模型前沿训练营，旨在培养具有实战经验的系统性人才，加速大模型技术研究与产业发展的步伐。