在十二月十九日,摩尔线程宣布了一个重大里程碑——首个全国产化的千卡千亿模型训练平台——摩尔线程KUAE智算中心在北京盛大揭幕。这标志着国内首个以国产全功能GPU为基石的大型算力集群成功落地,同时,摩尔线程大模型智算加速卡MTT S4000也在同日发布。
摩尔线程KUAE智算中心解决方案围绕全功能GPU构建,提供软硬件一体化的全栈服务,包括KUAE计算集群、KUAE平台集群管理和KUAEModelStudio模型服务,旨在简化大规模GPU算力的建设和运营流程。此方案大幅缩短了传统算力建设、应用开发和运维平台搭建的时间周期,实现快速市场部署。
摩尔线程KUAE智算中心支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架,集成数据并行、张量并行、流水线并行和ZeRO等多种并行策略,并对高效通信和Flash Attention进行了优化。摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调,展现出卓越的性能表现。例如,基于摩尔线程KUAE千卡集群,从70B到130B参数的大模型训练,线性加速比可达91%,算力利用率维持稳定。以2000亿训练数据量为例,智源研究院的700亿参数Aquila2模型能在33天内完成训练,而1300亿参数规模的模型则能在56天内完成训练。
摩尔线程KUAE千卡集群具备长时间连续稳定运行的能力,支持断点续训,异步Checkpoint时间小于2分钟,保证了训练过程的高效与可靠性。