从0到1！摩尔线程国产GPU千卡集群点亮新成就

蒋孟婷
2024-05-29 00:00:00 3063

摩尔线程与无问芯穹近期携手，成功在本周实现了基于国产全功能GPU千卡集群的3B规模大型模型的实战演练。他们共同推出的模型“MT-infini-3B”在摩尔线程夸娥（KUAE）千卡智能计算集群以及无问芯穹AIStudio PaaS平台上完成了高效稳定的训练过程。

这次实战充分展示了夸娥千卡智能计算集群在处理大型模型训练任务时的可靠性和稳定性，同时，它也开创了国产大型语言模型与国产GPU千卡智能计算集群合作的新模式。

“MT-infini-3B”的训练总共耗时13.2天，经过精准的调试，实现了全程不间断的稳定训练，集群训练的稳定性达到了100%，相较于单机训练，其扩展效率超过了90%。

当前，“MT-infini-3B”模型的性能在同等规模的模型中名列前茅，相较于在国际主流硬件上训练出的其他模型，在C-Eval、MMLU、CMMLU等三个测试集中均展现出显著的性能优势。

无问芯穹联合创始人兼首席执行官夏立雪指出，国内大模型与国产芯片的软硬件协同工作，旨在构建一个成熟的技术生态系统。无问芯穹正致力于开发“M种模型”与“N种芯片”之间的“M x N”中介层产品，以实现不同大模型算法在各种芯片上的高效统一部署。摩尔线程作为首家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司，此次“MT-infini-3B”的训练案例，是行业内首个基于国产GPU芯片实现从零开始的端到端大模型实战训练。

摩尔线程的创始人兼首席执行官张建中强调，无问芯穹在夸娥千卡智能计算集群上实现的大模型训练，不仅验证了摩尔线程的技术实力，也标志着国内大模型训练的国产化闭环的形成。摩尔线程的夸娥千卡智能计算集群，以全功能GPU为基础，提供了一套软硬件一体化的全面解决方案，具有高度兼容性、稳定性和扩展性等优点，旨在成为中国人工智能领域AGI时代的坚实基础。

在此之前，摩尔线程与无问芯穹已建立了深度战略合作伙伴关系。双方的AI开发与服务支持平台“无穹Infini-AI”和摩尔线程的大型模型智能计算千卡集群“夸娥”已经完成了系统的集成适配，这一平台能够灵活利用夸娥的集群能力，完成大模型的训练、微调和推理任务。

未来，双方将继续深化合作，推进国产大模型技术的快速发展与广泛应用，为中国人工智能产业的繁荣发展贡献力量。

快科技

责任编辑：：蒋孟婷

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

摩尔千卡集群线程点亮成就国产 GPU

李俊慧

2024-05-29

京津冀超大规模算力集群发布，6 月底建成万卡算力资源池