随着生成式人工智能技术的迅猛发展,计算资源需求激增,数据中心级别的GPU市场热度持续攀升。英特尔积极展现其至强可扩展处理器在生成式AI领域的潜力,为用户提供了GPU以外的高效选择。
进入2023年12月,英特尔发布第五代至强可扩展处理器,该处理器在微架构上实现了革新,将四个芯片整合为两个,大幅减少了数据访问延迟。处理器的核心数量达到了64个,内存带宽提升至5600MT/s,三级缓存容量增长近三倍,这些硬件改进显著提升了处理器的性能。
第五代至强可扩展处理器在AI推理能力方面表现出色,相较于前一代产品,AI推理性能提高了42%,使其成为适用于AI应用的理想服务器处理器。这一性能提升得益于处理器在内存带宽和三级缓存容量上的显著增强。
英特尔在软件生态系统的优化同样值得关注。除了硬件的升级,英特尔的软件团队也对x86架构进行了持续优化,尤其在对开源软件的支持方面,英特尔一直处于行业领先地位,对TensorFlow、PyTorch等主流机器学习框架的支持得到了广泛认可。
英特尔市场营销集团副总裁兼中国区数据中心及运营商销售总经理庄秉翰强调,英特尔在软件生态系统的投入巨大。伴随着第五代至强处理器的推出,英特尔向社区贡献了300多个深度学习模型,并支持了超过50个针对第五代至强优化的模型,以满足开发者的需求。
为了优化深度学习推理在英特尔各种硬件上的性能,英特尔还推出了OpenVINO工具,该工具特别针对CPU、GPU、FPGA等硬件进行优化,显著提升了深度学习模型在这些平台上的性能。此外,oneDNN和oneCCL技术在实现CPU上大规模分布式推理方面发挥着关键作用。
在讨论大型语言模型的推理时,Token Latency成为了衡量模型响应速度的重要指标。英特尔专家指出,100毫秒是用户体验的关键阈值,超过此时间可能导致用户满意度下降。因此,只要至强处理器能够将大型模型的Token Latency控制在100毫秒以下,就能有效应用于模型推理。
英特尔的测试数据显示,基于第四代或第五代至强服务器对10亿参数模型进行推理时,Token Latency保持在20毫秒以下;对于60-70亿参数的模型,延迟约为60毫秒;而对130亿参数模型的推理,则接近100毫秒。若需推理300亿参数的模型,并将延迟控制在100毫秒以内,用户可以选择配置两台基于第四代或第五代至强的双路服务器,或采用至强Max方案,一台双路服务器即可满足需求。
在推理700亿参数的模型时,若要维持100毫秒以内的延迟,用户需要配置两台基于至强Max的双路服务器,或者四台基于至强可扩展处理器的双路服务器。总之,英特尔的至强处理器在提供高效、稳定AI推理能力的同时,为用户在不同规模的模型应用中提供了灵活的选择。