昆仑万维公司宣布开源Skywork-MoE,一款性能强劲且推理成本更低的2千亿稀疏大模型。Skywork-MoE基于Skywork-13B模型的中间检查点扩展而成,是首个完整应用MoE Upcycling技术的开源千亿级MoE大模型,同时也是首个能够利用单一4090服务器进行推理的开源千亿级MoE大模型。
开源地址:
Skywork-MoE模型的权重、技术报告全部开放,免费用于商业用途,无需申请。
Skywork-MoE隶属于天工3.0的研发模型系列,作为中档大小模型,总参数量为146B,激活参数量为22B。模型包含16个Expert,每个Expert大小为13B,每次激活选取其中的2个Expert。天工3.0还训练了75B(Skywork-MoE-Small)和400B(Skywork-MoE-Large)级别的MoE模型,但并未纳入此轮开源计划。
在相同激活参数量20B(推理计算量)下,Skywork-MoE展现出行业领先的性能,接近于70B的密集型模型。这一特性显著降低了模型的推理成本,相比DeepSeekV2,其总参数规模减少了约三分之一,却实现了相近的性能水平。
为了克服MoE模型训练的难题和泛化性能不佳问题,Skywork-MoE引入了两项关键训练优化算法:
Gating Logits归一化操作:在Gating Layer的分发逻辑处加入归一化操作,旨在增强对top-2 Expert的置信度,提升MoE模型的性能。
自适应的Aux Loss:采用动态调整的辅助损失系数,让模型根据训练阶段的不同选择合适的系数,维持专家间Token分配的平衡,同时促进专家学习的差异化,提升整体性能和泛化能力。
针对大规模分布式训练MoE模型的挑战,Skywork-MoE提出了两个重要并行优化设计,实现了在千卡集群上的训练吞吐率提升至38%,其中以22B激活参数计算理论计算量为基础。
Expert Data Parallel:引入了一种名为Expert Data Parallel的新并行方案,有效解决了大规模分布式训练MoE的并行痛点,该方案易于实现和扩展。
非均匀流水并行:优化了流水并行下的层切分方式,通过非均匀分配和重计算,显著提高了计算和显存负载的均衡性,进而提升了约10%的端到端训练吞吐率。
Skywork-MoE能够在8台4090服务器上进行推理,是目前该配置下最大的开源MoE模型。在FP8量化下,使用首创的非均匀Tensor Parallel并行推理方式,模型可在合适的batch size内达到2200 tokens/s的吞吐量。详细的推理框架代码及安装环境已开源,欢迎访问GitHub获取更多信息。
本次开源Skywork-MoE模型及相关资料,旨在为开源社区提供宝贵的MoE训练经验和技术知识,涵盖模型结构、超参选择、训练技巧及训练推理加速等方面。我们期待通过减少训练推理成本来构建更大、性能更强的模型,共同推动人工智能领域的发展。