摩尔线程大模型智算加速卡 MTT S4000 发布,配备 48GB 显存
作者头像
  • 真言快语
  • 2023-12-20 00:00:00 3073

摩尔线程发布国产千卡千亿模型训练平台及大模型智算加速卡

在十二月十九日,摩尔线程宣布了一个重大里程碑——首个全国产化的千卡千亿模型训练平台——摩尔线程KUAE智算中心在北京盛大揭幕。这标志着国内首个以国产全功能GPU为基石的大型算力集群成功落地,同时,摩尔线程大模型智算加速卡MTT S4000也在同日发布。

摩尔线程大模型智算加速卡MTT S4000亮点

  • 技术创新内核:采用第三代MUSA内核设计,单卡配备48GB显存与高达768GB/s的显存带宽。
  • 多卡互联支持:通过摩尔线程自主研发的MTLink1.0技术,MTT S4000能够实现多卡互联,有效提升千亿级大模型的分布式计算效率。
  • 全面应用能力:提供先进的图形渲染、视频编解码和8K HDR显示能力,支持AI计算、图形渲染、多媒体等综合场景的应用。
  • CUDA生态兼容:借助MUSIFY开发工具,MTT S4000能够无缝利用现有的CUDA软件生态,实现CUDA代码向MUSA平台的零成本迁移。

KUAE智算中心解决方案概览

摩尔线程KUAE智算中心解决方案围绕全功能GPU构建,提供软硬件一体化的全栈服务,包括KUAE计算集群、KUAE平台集群管理和KUAEModelStudio模型服务,旨在简化大规模GPU算力的建设和运营流程。此方案大幅缩短了传统算力建设、应用开发和运维平台搭建的时间周期,实现快速市场部署。

高效框架与模型支持

摩尔线程KUAE智算中心支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架,集成数据并行、张量并行、流水线并行和ZeRO等多种并行策略,并对高效通信和Flash Attention进行了优化。摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调,展现出卓越的性能表现。例如,基于摩尔线程KUAE千卡集群,从70B到130B参数的大模型训练,线性加速比可达91%,算力利用率维持稳定。以2000亿训练数据量为例,智源研究院的700亿参数Aquila2模型能在33天内完成训练,而1300亿参数规模的模型则能在56天内完成训练。

稳定运行与持续优化

摩尔线程KUAE千卡集群具备长时间连续稳定运行的能力,支持断点续训,异步Checkpoint时间小于2分钟,保证了训练过程的高效与可靠性。

    本文来源:IT之家
责任编辑: : 真言快语
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
加速卡摩尔显存线程配备模型发布S400048GBMTT
    下一篇