导览
近期,Nvidia在加州举行的2024年全球技术大会(GTC)上,星辰天合的首席技术官王豪迈深入探讨了GPU与存储技术的最新发展。此篇评论是他针对此次大会的第二份深度分析报告。
在前文探讨了AI集群扩张与数据集增容带来的挑战时,我们关注了高效与安全地利用集群资源的重要性。特别是,随着新一代GPU计算能力及网络技术的发布,存储带宽需求激增,内存与网络传输压力亦随之加大。
深入探讨前,需明确算力集群与存储网络架构的基础。Nvidia在AI数据中心提出了两大核心概念:AI Factory与AI Cloud。AI Factory适用于单一应用场景,推荐使用Infiniband网络;而AI Cloud则面向多元计算任务与多租户环境,以太网成为首选。本篇聚焦AI Cloud中存储安全访问的关键议题,鉴于此场景的迫切需求。
当前,面对GPU高昂成本与非GPU虚拟化环境,算力共享与灵活调度成为降低成本的核心策略。因此,安全的数据访问与隔离机制对于高性能算力平台而言不可或缺。AI集群需在保持高效性能的同时,有效解决控制层与数据层的安全访问挑战:
DPU:重塑存储访问的安全代理
在以太网构建的AI Cloud环境下,Nvidia倡导通过DPU(Data Processing Unit)方案来应对上述挑战。DPU作为安全访问的代理,能隔离不可信主机与可信基础设施,保障AI Cloud数据安全。
DPU是一种集成CPU、内存与网络接口的专用硬件加速器,能在不增加主机CPU负载的前提下,执行数据处理任务。目前,Nvidia、Intel、AMD、Marvell等多家公司已推出DPU产品。DPU在安全性上的优势主要体现在:
值得注意的是,Nvidia在《下一代AI的新一代网络》白皮书中指出,在400/800Gb网络环境下,即使在无损网络中,也难以完全避免AI相关网络挑战。