NVIDIA Grace Hopper超级芯片横扫MLPerf推理基准测试

李云
2023-09-21 00:00:00 3055

深度解析NVIDIA GH200与AI创新

NVIDIA GH200超级芯片，作为行业标杆，首度亮相MLPerf行业基准测试，展现其在数据中心推理任务中的强大性能，进一步巩固了NVIDIA H100 Tensor Core GPU的领先地位。此番测试彰显了NVIDIA AI平台在云端及网络边缘的卓越表现与广泛适用性。

技术创新与性能飞跃
NVIDIA不仅推出了革新性的推理软件，显著提升了性能、能效与总体拥有成本。GH200超级芯片的独特设计——将Hopper GPU与Grace CPU整合于同一芯片中，实现更大内存、更高带宽与智能资源自动调配，使其在性能优化上达到新高度。GH200在MLPerf测试中一骑绝尘，特别是在计算机视觉、语音识别、医学成像与生成式AI应用等领域，展现出强大的处理能力。

推理性能与软件优化

NVIDIA GH200与H100 GPU在所有MLPerf数据中心测试中占据领先地位，尤其在推荐系统与大语言模型（LLM）等高需求场景中表现出色。此外，NVIDIA的TensorRT-LLM软件库，为用户在不增加成本的前提下，将H100 GPU的推理性能提升至两倍以上，为AI领域的开发者提供了高效、经济的解决方案。

推进AI创新与应用

TensorRT-LLM软件基于NVIDIA在加速和优化LLM推理方面的深厚积累，为Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML（现为Databricks的一部分）、OctoML、Tabnine、Together AI等领先公司提供支持，实现了性能显著提升。Databricks工程副总裁Naveen Rao对此表示，“这已成为相当轻而易举的事情”，并强调了TensorRT-LLM的简便性、功能丰富性与高效性，为LLM服务提供了先进的性能，同时将节省的成本回馈给了客户。

L4 GPU：主流服务器的推动力

NVIDIA L4 GPU在最新MLPerf基准测试中表现出色，其性能超越了同等功耗的CPU，展现出巨大的优势。在紧凑型72W PCIe加速器中运行时，L4 GPU的性能相比CPU高出近5倍，且在计算机视觉任务上提供了高达120倍的加速效果。谷歌云及众多系统制造商的支持，使得L4 GPU在消费互联网服务、药物研发等多个领域广泛应用。

边缘计算的突破

NVIDIA展示了在L4 GPU上运行BERT LLM的性能提升，高达4.7倍，这一成果在“开放分区”类别中得以体现，旨在展示新能力的应用前景。该项技术有望广泛应用于各种AI工作负载，特别适合在资源有限的边缘设备上运行模型。

强大的生态系统与透明性

MLPerf基准测试因其透明性与客观性，成为用户决策的重要参考。覆盖丰富用例与场景的测试，确保了性能的可靠性和灵活性。NVIDIA的合作伙伴包括微软Azure、Oracle Cloud Infrastructure等云服务提供商，以及华硕、Connect Tech、戴尔科技等系统制造商，共同推动AI技术的普及与应用。