近年来,人工智能的快速发展与普及,尤其是以ChatGPT为代表的大模型技术,推动了AI芯片设计的革新,步入了大算力时代。主流AI芯片依然沿用冯·诺依曼模型,将计算单元与数据存储分离,这种设计要求处理器频繁从内存读取数据、执行计算后写回内存。然而,计算能力的提升并未完全匹配数据传输速度,两者间的差距成为限制AI芯片性能的关键因素。
内存墙——计算能力与带宽能力之间巨大的差距,导致内存容量和数据传输速度难以满足AI硬件的需求。面对这一挑战,研究人员从三个方向寻求解决方案:
安霸公司在自动驾驶领域积累了深厚的技术底蕴,于2015年收购VisLab,开始探索自动驾驶所需的芯片技术。自2017年起,安霸相继推出CVflow架构芯片CV1、CV2系列,以满足车载辅助驾驶市场的需求。面对2019年自动驾驶技术的迅猛发展,安霸前瞻性地启动了CV3系列大算力芯片的设计,旨在提供强大的计算能力以支撑自动驾驶场景。
CV3系列芯片在设计之初即预见了大算力时代内存带宽的挑战,通过采用先进的LPDDR5技术,每位DRAM的数据传输速率高达8Gb/s,同时提供64位、128位和256位的内存位宽,确保各种计算场景下的数据传输带宽需求。
CV3芯片采用的第三代CVflow架构,结合了Partial Buffer(PB)设计,有效解决了内存墙问题。相较于传统缓存系统,PB设计更简单、成本更低,同时配置独立的DMA通道,实现数据高效传输。PB设计支持一次从DRAM和PB之间的大块数据传输,减少了数据搬运次数和延迟,与计算单元工作并行,提高了整体计算效率。此外,CVflow工具能够智能管理PB,无需额外优化,使开发者专注于算法和应用开发。
在自动驾驶场景中,CV3系列芯片通过优化内存利用、快速启动并行处理、实现高效硬件算子和非结构化稀疏加速,显著提升了性能。CVflow架构支持多种量化格式,包括4、8、16、32位定点和16、32位浮点数据格式,确保了在不同数据类型和规模任务中的高效部署。
面对大模型时代下计算与内存的挑战,安霸CV3系列芯片通过创新的CVflow架构设计,实现了对内存墙的有效突破,为自动驾驶技术的发展提供了坚实的硬件基础。随着技术的持续进步,我们期待更多类似的创新解决方案,进一步推动人工智能领域的革新。