GTC 2024 火线评论:DPU 重构文件存储访问
作者头像
  • 互联网之家
  • 2024-03-26 00:00:00 3078

导览

近期,Nvidia在加州举行的2024年全球技术大会(GTC)上,星辰天合的首席技术官王豪迈深入探讨了GPU与存储技术的最新发展。此篇评论是他针对此次大会的第二份深度分析报告。

在前文探讨了AI集群扩张与数据集增容带来的挑战时,我们关注了高效与安全地利用集群资源的重要性。特别是,随着新一代GPU计算能力及网络技术的发布,存储带宽需求激增,内存与网络传输压力亦随之加大。

深入探讨前,需明确算力集群与存储网络架构的基础。Nvidia在AI数据中心提出了两大核心概念:AI Factory与AI Cloud。AI Factory适用于单一应用场景,推荐使用Infiniband网络;而AI Cloud则面向多元计算任务与多租户环境,以太网成为首选。本篇聚焦AI Cloud中存储安全访问的关键议题,鉴于此场景的迫切需求。

当前,面对GPU高昂成本与非GPU虚拟化环境,算力共享与灵活调度成为降低成本的核心策略。因此,安全的数据访问与隔离机制对于高性能算力平台而言不可或缺。AI集群需在保持高效性能的同时,有效解决控制层与数据层的安全访问挑战:

  • 控制层:涵盖网络与系统管理、权限分配与漏洞管理等关键操作安全性。
  • 数据层:重点在于授权访问与抵御外部攻击,防范数据泄露、篡改及拒绝服务攻击等风险。

DPU:重塑存储访问的安全代理

在以太网构建的AI Cloud环境下,Nvidia倡导通过DPU(Data Processing Unit)方案来应对上述挑战。DPU作为安全访问的代理,能隔离不可信主机与可信基础设施,保障AI Cloud数据安全。

DPU是一种集成CPU、内存与网络接口的专用硬件加速器,能在不增加主机CPU负载的前提下,执行数据处理任务。目前,Nvidia、Intel、AMD、Marvell等多家公司已推出DPU产品。DPU在安全性上的优势主要体现在:

  • 隔离与专用处理:DPU作为隔离层,分离存储与网络操作,即便主机遭遇安全威胁,攻击者也难以直接触及数据传输与存储操作。
  • 减少攻击面:DPU控制存储资源访问路径,实施更细致的访问策略,限制潜在攻击途径。主CPU不再直接处理数据流,攻击者需先破坏DPU方能触及数据,大幅提升了攻击难度。
  • 内置安全功能:多数DPU配备加密及其他安全特性,如内联数据加密、秘密保护与防火墙服务,提供硬件级保护,减少软件层可能的漏洞。
  • 精细控制与零信任架构:DPU实现数据访问的精细管理,强化监控与日志记录,支持零信任安全模型,假设内部网络不可信,严格验证所有请求,增强对潜在内部威胁的防御。

值得注意的是,Nvidia在《下一代AI的新一代网络》白皮书中指出,在400/800Gb网络环境下,即使在无损网络中,也难以完全避免AI相关网络挑战。

    本文来源:图灵汇
责任编辑: : 互联网之家
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
重构火线存储文件访问评论2024DPUGTC
    下一篇