中国AI高性能网络受国际顶会认可!阿里云6篇论文入选SIGCOMM2024
作者头像
  • 杨天瑞
  • 2024-05-13 00:00:00 3067

SIGCOMM 2024 收录论文:中国企业在 AI 智算集群网络架构领域展现亮眼表现

阿里云论文入选亮点

在国际顶级网络通信会议 SIGCOMM 2024 中,中国企业,特别是阿里云,表现出色,成功入选六篇论文。其中,一篇特别关注于阿里云最新一代智算集群网络架构 HPN7.0 的研究成果,此为该领域在 SIGCOMM 历史上首次发表此类论文。

高性能 AI 架构 HPN7.0

HPN7.0 架构专门针对 AI 时代对网络高性能的需求而设计。它针对大模型训练场景中的规模大、流量多、突发性强、稳定性需求高等特点,创新性地采用了“双上联+多轨+双平面”网络架构,并集成最新一代 51.2Tbps 单芯片以太网交换机与 400G 高性能网卡,自研 Solar-RDMA 和 ACCL 通信库,实现了单层千卡、两层万卡的高效稳定互联。

实施与应用

自 2023 年 9 月起,HPN7.0 在阿里云进行了大规模部署。相较于上一代架构,其在典型场景下的大模型训练性能提升了 14.9%,同时显著增强了智算网络的整体稳定性。这一架构支持的高效网络环境,为通义千问 2.5 版本大模型的训练提供了有力支撑,使其在理解能力、逻辑推理、指令遵循、代码能力等方面分别取得了显著提升,中文性能全面超越 GPT-4Turbo。

创新与影响力

阿里云基础设施网络负责人蔡德忠表示,HPN7.0 是对端网融合的可预期网络概念的进一步发展,不仅扩展了网络协议栈,而且将体系结构延伸至网络架构和通信库层面,从而实现面向 AI 智算时代的全新网络集群架构创新。网络架构作为网络技术与系统的基础,其重大创新如同稀世珍宝,而 HPN7.0 或将引领下一代 AI 高性能网络架构的新范式。

国际地位与贡献

在 SIGCOMM 近 50 年的历史中,中国大陆论文入选总数仅为 50 多篇,而阿里云在这期间累计入选 25 篇,成为中国科技公司中入选数量最多的。这充分展示了阿里云在高性能网络领域的深厚积累和卓越成就,尤其是在端网融合的可预期网络技术体系、RDMA 低延迟网络、智算集群网络架构 HPN7.0 等先进网络技术的实践方面,阿里云处于行业领先地位。阿里巴巴也多次荣获 AMiner 等权威机构评选的全球十大最具影响力的网络研究机构荣誉。


以上内容旨在概述阿里云在 SIGCOMM 2024 中的亮眼表现及其在 AI 智算集群网络架构领域的创新贡献,力求准确传达原始信息的同时,采用不同的表述方式和结构,以符合改写要求。

    本文来源:图灵汇
责任编辑: : 杨天瑞
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
阿里高性能中国SIGCOMM2024入选认可论文国际网络
    下一篇