摩尔线程大模型智算加速卡 MTT S4000 发布，配备 48GB 显存

真言快语
2023-12-20 00:00:00 3073

摩尔线程发布国产千卡千亿模型训练平台及大模型智算加速卡

在十二月十九日，摩尔线程宣布了一个重大里程碑——首个全国产化的千卡千亿模型训练平台——摩尔线程KUAE智算中心在北京盛大揭幕。这标志着国内首个以国产全功能GPU为基石的大型算力集群成功落地，同时，摩尔线程大模型智算加速卡MTT S4000也在同日发布。

摩尔线程大模型智算加速卡MTT S4000亮点

技术创新内核：采用第三代MUSA内核设计，单卡配备48GB显存与高达768GB/s的显存带宽。
多卡互联支持：通过摩尔线程自主研发的MTLink1.0技术，MTT S4000能够实现多卡互联，有效提升千亿级大模型的分布式计算效率。
全面应用能力：提供先进的图形渲染、视频编解码和8K HDR显示能力，支持AI计算、图形渲染、多媒体等综合场景的应用。
CUDA生态兼容：借助MUSIFY开发工具，MTT S4000能够无缝利用现有的CUDA软件生态，实现CUDA代码向MUSA平台的零成本迁移。

KUAE智算中心解决方案概览

摩尔线程KUAE智算中心解决方案围绕全功能GPU构建，提供软硬件一体化的全栈服务，包括KUAE计算集群、KUAE平台集群管理和KUAEModelStudio模型服务，旨在简化大规模GPU算力的建设和运营流程。此方案大幅缩短了传统算力建设、应用开发和运维平台搭建的时间周期，实现快速市场部署。

高效框架与模型支持

摩尔线程KUAE智算中心支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，集成数据并行、张量并行、流水线并行和ZeRO等多种并行策略，并对高效通信和Flash Attention进行了优化。摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调，展现出卓越的性能表现。例如，基于摩尔线程KUAE千卡集群，从70B到130B参数的大模型训练，线性加速比可达91%，算力利用率维持稳定。以2000亿训练数据量为例，智源研究院的700亿参数Aquila2模型能在33天内完成训练，而1300亿参数规模的模型则能在56天内完成训练。