在8月7日,阿里巴巴云平台宣布推出全新升级的存储系统——CPFS智算版,这一更新旨在优化大规模AI训练场景下的数据处理能力。CPFS智算版实现了单文件系统容量的显著提升,达到了6PB级别,相比之前提高了500%,从而能够支持更大规模的数据集和更高性能的计算任务。
同时,CPFS智算版引入了智能系统引擎,大幅提升了冷热数据的流动带宽,最高可达20倍之多,这不仅优化了数据存储的成本效益,也为大规模模型训练和推理提供了更强的支持。
随着AI模型参数和数据集规模的急剧增长,多模态大型模型的开发成为趋势。这类模型对存储系统提出了更高的要求,包括更快的数据读写速度、更大的存储空间以及更低的延迟。阿里云CPFS正是针对这些需求而设计的产品,它采用了创新的分布式并行存储架构,结合高性能RoCE RDMA网络协议和虚拟存储通道技术,以及多级缓存的弹性客户端,以实现高吞吐量、低延迟的存储能力。
CPFS智算版的单文件系统容量从1PB跃升至6PB,单个计算节点最多可支持40个容器同时挂载。通过智能数据流动引擎的升级,冷热数据可以在100GB/s的高速带宽下高效流动。在训练阶段,数据从对象存储(OSS)快速导入至CPFS,满足高并发读取的需求;而在训练结束后,生成的结果数据从CPFS导出至OSS,进一步降低了存储成本。
为应对大模型训练中的数据安全挑战,CPFS智算版通过高性能虚拟化存储通道保障了数据访问的安全性,实现了租户权限鉴权、数据隔离和性能隔离,增强了端到端的安全隔离和数据保护能力。此外,日志服务SLS的日志审计能力与云备份CloudBackup的自动挂载备份功能也将集成至CPFS系统中。
阿里云CPFS智算版已成功应用于复旦大学、小鹏汽车、零一万物、百川智能、元戎启行等公司和机构的AI训练与应用中。通过CPFS提供的高吞吐带宽和百亿级小文件的高性能访问,数据集的并发读取和checkpoint写效率得到了显著提升,加速了模型训练和推理过程。例如,元戎启行基于阿里云的灵骏智算和CPFS分布式存储,实现了高性能的智能驾驶训练,训练效率提升了120%,同时通过冷热数据的分层存储策略,实现了成本的有效节省。
Forrester发布的全球AI基础设施解决方案报告中,阿里云AI Infra以其全面的产品力位列全球第二。此次CPFS智算版的升级,标志着阿里云在面对多模态等AI发展趋势上的持续创新与探索。在存储领域,阿里云曾获得中国电子学会科学技术特等奖、世界互联网领先科技成果奖,其盘古分布式存储技术更是荣获了中国发明专利金奖。