自动驾驶技术的发展正朝着端到端的方向迈进,这一趋势强调了对精确三维信息的需求,使得实现高精度的三维感知变得至关重要。在探索三维感知的技术路径时,我们发现它大致分为两大类:稠密算法与稀疏算法。
在稠密算法领域,通过点云转换和多视图立体视觉等手段,我们能够获取场景中每个点的深度信息,以此来更加精确地描绘出环境中的物体。其中,近年来备受瞩目的BEV感知技术就是一个典型的例子,它将多传感器数据从图像空间转换至BEV空间,实现了从稠密特征到稠密特征的重组。当前,BEV技术已经在行业内外获得了广泛的认可与应用。
然而,稠密算法也面临着挑战,如庞大的数据量要求高效的处理与存储方法,以提升计算效率和减少内存占用。同时,考虑到多传感器数据的复杂性,需要优化计算方法与平台,以满足实时性的需求。值得注意的是,在实际应用中,自动驾驶系统的计算目标通常分布在空间上的稀疏区域,这意味着在稠密算法中,大量计算资源被浪费。
与此相对,稀疏感知算法通过减少查询数量和降低特征交互量,显著提高了计算速度与存储需求,从而增强了感知模型的计算效率和系统性能。特别在从二维到三维的转换效率以及远距离感知方面,基于稀疏算法的解决方案展现出了一定的优势,这也是当前行业积极探索的方向。
近期,地平线发布了一系列关于稀疏感知方案的创新工作,如Sparse4D v1 & v2。这些工作从查询构建、特征采样、特征融合以及时序融合等多个角度提升了模型的感知效果。在nuScenes检测任务中,Sparse4D取得了卓越成果,超越了VideoBEV、SOLOFusion和StreamPETR等算法,展示了其在性能上的领先地位。
为了让您深入了解Sparse4D的奥秘,地平线与智猩猩共同筹划了一场专题直播活动。主讲人林天威,地平线的感知算法工程师,将为您详细介绍3D感知的研究背景与现状,深入解析稀疏通用感知架构,并重点讲解长时序稀疏化3D目标检测算法Sparse4D v1 & v2的相关工作。此外,他还将会分享稀疏感知新范式的未来发展趋势。
这场直播不仅是一次技术知识的分享,更是深入探讨自动驾驶领域前沿技术的机会,期待您的参与!