华为揭秘国产算力+国产模型的全流程自主可控训练实践
作者头像
  • 机器人网mp
  • 2025-06-01 20:17:13 145

华为最近在MoE模型训练方面取得了新进展,推出了一个参数规模达7180亿的新模型——盘古Ultra MoE。这个模型是在昇腾AI计算平台上全程训练的准万亿MoE模型。华为还发布了关于盘古Ultra MoE模型架构和训练方法的技术报告,详细介绍了多项技术细节,展示了昇腾在超大规模MoE训练性能上的突破。

训练超大规模且高度稀疏的MoE模型充满挑战,过程中稳定性常常难以维持。为解决这一问题,盘古团队在模型架构和训练方法上进行了创新设计,成功完成了昇腾平台上的全流程训练。

在架构方面,盘古团队采用了Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,支持超过18TB的数据进行长期稳定训练。他们还引入了EP loss负载优化方案,确保各专家间的负载均衡,同时增强专家的领域特化能力。盘古Ultra MoE结合了行业领先的MLA和MTP架构,在预训练和后训练阶段均采用Dropless训练策略,实现了MoE架构在模型效果与效率之间的最优平衡。

在训练方法上,华为团队首次展示了在昇腾CloudMatrix 384超节点上高效构建大稀疏比MoE强化学习(RL)后训练框架的关键技术,推动RL后训练进入超节点集群时代。基于5月初发布的预训练系统加速技术,华为团队在短时间内完成了一次迭代升级,包括适应昇腾硬件的自适应流水线掩盖策略,优化算子执行顺序,减少Host-Bound并提升EP通信掩盖;开发自适应内存优化管理策略;通过数据重排实现DP间注意力负载均衡;以及针对昇腾优化的算子改进。这些技术使万卡集群的预训练MFU从30%提升到41%。

此外,近期推出的盘古Pro MoE大模型,虽然参数量为720亿,激活参数量为160亿,但凭借动态激活专家网络的设计,展现了卓越的性能,甚至可以与千亿级模型相媲美。在权威的大模型榜单SuperCLUE 2025年5月排行榜中,该模型在千亿参数量内的大模型中排名并列国内第一。

华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,表明华为不仅实现了国产算力和国产模型全流程自主可控的训练实践,还在集群训练系统的性能上达到了行业领先水平。这标志着国产AI基础设施的自主创新实力得到了进一步确认,为中国人工智能产业的发展提供了坚实的支持。

    本文来源:图灵汇
责任编辑: : 机器人网mp
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
华为国产可控揭秘模型流程自主实践训练
    下一篇