康普观点:数据中心如何更快、更经济地利用AI
作者头像
  • 马齐齐
  • 2023-10-26 00:00:00 3107

AI与机器学习的崛起与应用

随着科技的飞速发展,科幻作品中关于“机器智能崛起”的想象正逐渐从虚构走向现实。人们对于人工智能(AI)和机器学习(ML)在广泛领域的潜力愈发关注,创新应用层出不穷。如今,成千上万的用户通过诸如ChatGPT等AI界面探索这些概念,尽管他们可能并未意识到,每一次与AI助手的对话背后,都是全球范围内大型数据中心的强大支撑。

企业也在构建自己的AI集群,旨在满足自身的商业需求,构建、训练和完善AI模型。这些AI集群的核心是由众多GPU(图形处理器)构成的,它们提供了惊人的并行处理能力,为算法训练提供强大动力。导入数据集后,AI推理系统便开始对数据进行深度分析,揭示其中蕴含的模式与意义。例如,通过对猫与狗特征的训练,AI能够精准识别图像中的动物种类;而生成式AI则进一步运用这些数据,创造全新的图像或文本。

“智能”背后的技术,不仅吸引了全球各地的个人、政府和企业的关注,也促进了中国本土人工智能产业的高质量发展,加速与各行各业的融合应用。然而,构建有效的AI算法需要海量数据作为训练基础,这一过程既昂贵又耗能。

提升效率的关键:优化AI训练基础设施

数据中心内的AI集群协同运作,为AI算法训练提供了关键数据支持。然而,GPU的高能耗特性限制了单位机架空间内GPU数量的安装,因此优化物理布局至关重要。同时,过长的光纤线路导致的损耗问题也成为了不容忽视的挑战。光纤作为一种高效、低损耗、低延迟的基础设施,AI集群的运行速度可达100G或400G。但在大量数据传输过程中,每增加一米光纤长度,都会带来成本高昂的延迟和损耗。

训练大规模AI模型往往需要平衡网络延迟与计算时间。减少延迟的机会,哪怕仅是通过缩短10米光纤线带来50纳秒的微小减少,也能显著提升训练效率和降低成本。考虑到大型AI模型训练可能需耗资1000万美元甚至更多,每一毫秒的节省都显得尤为重要。

节能与成本优化:选择合适的光纤解决方案

在AI集群中选择合适的光收发器与光缆方案,是降低成本与能耗的关键。并行光纤的收发器因其无需额外的光复用器与解复用器,从而在成本与功耗上优于双工光纤方案,使得使用8芯光缆的400G-DR4收发器相较于使用双工光缆的400G-FR4收发器更具成本效益。单模与多模光纤的应用同样适用于长至100米的链路,而随着硅光等技术的进步,单模收发器的成本已接近多模收发器,甚至在某些情况下略显优势。

高速多模收发器的功耗较低,对于AI集群而言,这是一项显著的节能机会。一个AI集群中最多可安装768个收发器,采用多模光纤设置可以节省高达1.5千瓦的功率,这对于整体功耗极高的AI系统而言,虽看似微小,却能在长期运行中积累可观的经济价值。

AOC与传统收发器的比较

在AI/ML集群和HPC环境中,有源光缆(AOC)常用于GPU与交换机间的连接。AOC是一种设备直连线缆,集成了光发射器与接收器,适用于短距离传输。然而,AOC的安装过程复杂,需要在连接收发器的情况下布线,尤其是分支型AOC的安装更为困难。此外,AOC的故障率是传统收发器的两倍,一旦发生故障,修复过程可能占用宝贵的计算时间。

相比之下,传统的光收发器安装更为灵活,适应性强,能够在几代数据速率下保持稳定,提供持续的基础设施支持。

结论

人工智能与机器学习已成为连接人类、企业与设备的重要力量,正逐步融入日常生活的方方面面。虽然AI服务的便捷体验可能在手机等终端设备上实现,但其背后强大的数据中心基础设施与算力支持不可或缺。投资于先进光纤基础设施,不仅能够加速AI的训练与运行,还能在未来收获显著的经济与技术回报。在这个瞬息万变、高度互联的世界中,那些率先优化AI训练基础设施的企业,无疑将占据更为重要的市场地位。

    本文来源:图灵汇
责任编辑: : 马齐齐
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
康普数据中心更快观点利用如何经济
    下一篇