腾讯星脉网络2.0全新发布,400G网络接口,支持超10万卡大规模组网
作者头像
  • 马田嫄
  • 2024-07-03 00:00:00 2533

AI基础设施:腾讯云星脉高性能计算网络的革新与大模型加速

随着人工智能领域的迅猛发展,AI基础设施成为了云服务提供商的核心竞争力。近期,腾讯云宣布对其自主研发的星脉高性能计算网络进行全面升级,这一举措旨在进一步优化AI计算环境,增强云服务的竞争力。

星脉网络2.0的升级亮点

  • 自研设备与AI算力网卡:星脉网络2.0搭载全自研的网络设备和AI算力网卡,支持高达10万卡的大规模组网,网络通信效率较上一代提升60%,显著提升了大模型训练效率。这一升级意味着,相较于以往,模型训练的同步时间减少了60%,训练周期缩短了20%。例如,原本需50天的训练任务,现在只需40天即可完成。

AI大模型的“赛道”设计

腾讯云精心设计了星脉高性能算力网络作为“赛道”,并自主研发了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”。这些创新技术共同作用于“腾讯云高性能计算集群HCC的GPU服务器”,以充分发挥其强大的算力性能,为客户在AI大模型竞争中占据领先地位。

应对AIGC挑战

面对AIGC的热潮,AI大模型参数量从亿级跃升至万亿级,对底层网络架构提出了更高的要求。为支持海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,实现高效协同。然而,随着集群规模的扩大,通信损耗也随之增加,且AI训练的通信模式与传统模式存在差异,不同模型架构间的通信模式亦有所不同。部分模型训练过程中,通信占比甚至高达50%。

核心问题与解决方案

为解决大规模组网下的通信效率与稳定性问题,星脉网络2.0实现了大模型训练过程中通信占比低至6%,通信负载率达到了90%,相较于标准以太网提升60%,整体性能位于业界顶尖水平。通过四大关键组件的全面升级,包括自研网络设备、通信协议、通信库以及运营系统,星脉网络有效提升了通信效率和稳定性,降低了通信占比,从而提高了GPU利用率和模型训练效率。

技术创新与升级

硬件层面,腾讯星脉网络采用了业界首个全自研网络设备,包括交换机、光模块与网卡,其中交换机容量从25.6T升级至51.2T,率先引入400G硅光模块,使得网络延迟降低40%,支持超10万卡大规模组网。此外,腾讯自研的全新算力网卡,采用最新一代FPGA芯片,整卡带宽可达400Gbps,通信带宽达到3.2T,搭配新一代TiTa协议与主动拥塞控制算法,显著提升了训练效率。

运营系统的优化

腾讯云自研的端到端全栈网络运营系统,新增了独家技术灵境仿真平台,实现了从网络问题到GPU节点问题的全方位监控与快速定位,大幅缩短了故障排查时间,确保了星脉网络的高可用性与稳定性。

全链路云服务

在AI基础设施的支撑下,腾讯云面向AIGC场景推出了一系列全链路云服务,包括基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案。这些服务覆盖了从模型训练到内容安全的各个环节,助力企业实现高效智能化转型。

腾讯混元大模型

依托于星脉网络与自研底层技术,腾讯混元大模型持续迭代,实现了参数规模的扩展至万亿级别,并采用混合专家模型结构,在通用能力与专业应用领域保持国内领先。通过腾讯云API,企业和个人开发者均可便捷调用腾讯混元,享受智能化升级服务。腾讯还与生态伙伴合作,将大模型技术应用于多个行业,提供了超过50个行业大模型解决方案。

未来展望

随着AI时代的到来,腾讯云致力于构建“最适合大模型的云”,持续升级AI基础设施,为企业提供全面的AI支持,助力其在数字化转型中抢占先机。

    本文来源:图灵汇
责任编辑: : 马田嫄
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
万卡腾讯网络组网大规模接口全新支持发布400G
    下一篇