阿里云AI存储全面升级,CPFS 容量提升500%
作者头像
  • 金志伟
  • 2024-08-07 00:00:00 2250

阿里云发布AI存储系统CPFS智算版,性能跃升500%

在8月7日,阿里巴巴云平台宣布推出全新升级的存储系统——CPFS智算版,这一更新旨在优化大规模AI训练场景下的数据处理能力。CPFS智算版实现了单文件系统容量的显著提升,达到了6PB级别,相比之前提高了500%,从而能够支持更大规模的数据集和更高性能的计算任务。

同时,CPFS智算版引入了智能系统引擎,大幅提升了冷热数据的流动带宽,最高可达20倍之多,这不仅优化了数据存储的成本效益,也为大规模模型训练和推理提供了更强的支持。

大型模型训练的新挑战与解决方案

随着AI模型参数和数据集规模的急剧增长,多模态大型模型的开发成为趋势。这类模型对存储系统提出了更高的要求,包括更快的数据读写速度、更大的存储空间以及更低的延迟。阿里云CPFS正是针对这些需求而设计的产品,它采用了创新的分布式并行存储架构,结合高性能RoCE RDMA网络协议和虚拟存储通道技术,以及多级缓存的弹性客户端,以实现高吞吐量、低延迟的存储能力。

升级与优化:单文件系统容量与数据流动

CPFS智算版的单文件系统容量从1PB跃升至6PB,单个计算节点最多可支持40个容器同时挂载。通过智能数据流动引擎的升级,冷热数据可以在100GB/s的高速带宽下高效流动。在训练阶段,数据从对象存储(OSS)快速导入至CPFS,满足高并发读取的需求;而在训练结束后,生成的结果数据从CPFS导出至OSS,进一步降低了存储成本。

数据安全与管理:端到端的保护

为应对大模型训练中的数据安全挑战,CPFS智算版通过高性能虚拟化存储通道保障了数据访问的安全性,实现了租户权限鉴权、数据隔离和性能隔离,增强了端到端的安全隔离和数据保护能力。此外,日志服务SLS的日志审计能力与云备份CloudBackup的自动挂载备份功能也将集成至CPFS系统中。

成功案例与行业认可

阿里云CPFS智算版已成功应用于复旦大学、小鹏汽车、零一万物、百川智能、元戎启行等公司和机构的AI训练与应用中。通过CPFS提供的高吞吐带宽和百亿级小文件的高性能访问,数据集的并发读取和checkpoint写效率得到了显著提升,加速了模型训练和推理过程。例如,元戎启行基于阿里云的灵骏智算和CPFS分布式存储,实现了高性能的智能驾驶训练,训练效率提升了120%,同时通过冷热数据的分层存储策略,实现了成本的有效节省。

全球AI基础设施解决方案的领导者

Forrester发布的全球AI基础设施解决方案报告中,阿里云AI Infra以其全面的产品力位列全球第二。此次CPFS智算版的升级,标志着阿里云在面对多模态等AI发展趋势上的持续创新与探索。在存储领域,阿里云曾获得中国电子学会科学技术特等奖、世界互联网领先科技成果奖,其盘古分布式存储技术更是荣获了中国发明专利金奖。

    本文来源:图灵汇
责任编辑: : 金志伟
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
阿里容量存储提升升级全面CPFS500
    下一篇