AMD王牌AI加速卡MI300X出世：训练模型比英伟达H100最高快 60%

在12月7日举办的“Advancing AI”活动中，AMD宣布了其旗舰级AIGPU加速器MI300X，这款产品在性能上显著超越了英伟达的H100，提升了60%。

性能亮点

内存容量：MI300X的内存容量是H100的2.4倍。
内存带宽：其内存带宽达到H100的1.6倍。
运算精度：在FP8和FP16的TFLOPS精度上，分别达到了H100的1.3倍。
模型训练效率：在特定模型训练中，相较于H100，MI300X的训练速度提升显著，例如，训练Llama 2 70B模型时，其速度比H100快20%；训练FlashAttention 2模型时同样实现了20%的速度提升。

价格与性能

MI300X不仅在性能上与H100不相上下，还提供了更具竞争力的价格与性能比，尤其在推理任务中表现出色。

软件堆栈升级

MI300X的软件堆栈升级至ROCm 6.0，显著增强了对生成式AI和大型语言模型的支持，同时支持最新的计算格式，如FP16、BF16和FP8（包括稀疏性处理）。

CDNA 3架构：MI300X基于先进的CDNA 3架构设计，结合5nm和6nm工艺IP，晶体管总数达到惊人的1530亿个。
中介层设计：主中介层采用无源芯片布局，集成第4代Infinity Fabric解决方案，用于连接各层，包含28个芯片，包括8个HBM3封装、16个虚拟芯片和4个有源芯片。
计算单元：每个基于CDNA 3架构的GPU计算单元包含40个计算单元，总计320个计算单元和20,480个核心单元。通过优化，总计算单元数减少至304个，流处理器总数为19,456个。
内存：MI300X配备HBM3内存，最大容量可达192GB，相比前代产品增加了50%，提供高达5.3TB/s的带宽和896GB/s的Infinity Fabric带宽。
功耗：MI300X的额定功率为750W，比上一代产品增加了50%，与NVIDIA H200相比也有所增加。