导览
在智能汽车领域,隐藏着一位默默无闻的AI视觉高手。尽管未公开宣布与智能汽车相关的业务动态,却在自动驾驶系统的最核心、最前沿、最迫切的技术领域展现了非凡的竞争力,其表现之突出,堪比全球AI顶尖会议的冠军级表现。
在具体技术层面,该高手在目标检测、语义分割、视觉推理等领域有着卓越的研究成果,多次在顶级会议上亮相,并在多项自动驾驶相关竞赛中夺冠。尤为引人注目的是,他们甚至能够凭借7个摄像头的纯视觉解决方案,实现高速公路、城市道路及泊车环境下的自动驾驶。
这位神秘的玩家并非特斯拉的AI团队,而是旷视科技。在近期的AI顶级会议CVPR中,借助大型模型的助力,AI视觉研究正引领自动驾驶方向的新潮流,而旷视研究院在众多参与者的角逐中脱颖而出,赢得了评估自动驾驶环境感知能力的冠军头衔。
虽然目前在业务层面上与智能汽车领域并无明确联系,但鉴于其技术研究和成果的显著性,人们不禁质疑,这样的成就是否纯粹出于学术追求?
旷视科技在哪些自动驾驶比赛中崭露头角?
旷视研究院参与的这场比赛是CVPR 2023特别设立的面向自动驾驶感知决策系统的一系列挑战赛之一。其中,“OpenLane拓扑关系挑战赛”是此次比赛的核心部分,旨在测试自动驾驶技术理解和处理场景的能力。
“OpenLane拓扑关系挑战赛”要求参赛者基于OpenLane-V2数据集,对给定的环视相机图像进行分析,输出车道中心线和交通元素的感知结果以及它们之间的拓扑关系预测。这一挑战不仅考验了自动驾驶技术对车道边缘线和交通标志的识别能力,更侧重于理解车道中心线与交通元素之间的逻辑关系,例如,绿灯亮起意味着哪些车道可以通行。
评判冠军的标准是基于OpenLane-V2数据集提供的OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测的平均匹配精度(mAP)来确定得分。在34支参赛队伍中,来自旷视研究院的队伍以55.19分的高分独占鳌头。
那么,旷视科技采用了何种策略来应对这一挑战?
在感知阶段,针对交通元素检测和车道中心线检测,旷视科技分别采用了YOLOv8和自研的PETRv2模型。对于交通元素检测,YOLOv8作为基础模型,以其速度快、准确性的特点成为首选。此外,由于OpenLane-V2数据集标注了交通标识与车道的对应关系,旷视在训练YOLOv8时,运用了包括强增强、分类损失重权重、困难样本重采样、伪标签学习和测试时增强在内的多种技巧,以提升模型对交通元素的理解能力。
在车道中心线检测方面,PETRv2提供了一个统一的纯视觉3D感知框架,支持3D目标检测和鸟瞰图分割。旷视利用PETRv2从多视角图像中提取2D特征,并结合摄像头截锥空间中的3D坐标,将2D特征与3D坐标输入到3D位置编码器。接着,通过全局注意力机制,将车道查询与图像特征进行交互,生成3D车道中心线检测结果和对应的车道中心线特征。
在拓扑关系预测阶段,旷视科技构建了一个多阶段网络框架,利用上述两个感知任务生成的成果拼接对应特征,再通过两层多层感知机(MLP)预测拓扑关系矩阵。
从最终的OLS得分来看,旷视科技的方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)等方面均处于领先地位。
智能车赛道的隐秘AI视觉高手
在此次比赛中,代表旷视科技参赛的是其MFV(Megvii-Foundation model-Video)团队。论文的第一作者是吴东明,于2019年在北理工获得学士学位,并在同年继续攻读计算机系博士学位,师从沈建冰教授。2022年,他成为旷视研究院的研究实习生。
论文的其他作者均来自旷视研究院,包括Chang Jiahao(中国科技大学毕业)、Li Zhuoling(香港大学毕业)。值得一提的是,所使用的PETRv2模型是由旷视研究院的创始人院长孙剑博士带领团队在生前发布的学术成果之一。
此外,旷视科技的自动驾驶相关研究成果远不止此,还包括BEVDepth检测模型(实现3D目标的高精度深度估计)、LargeKernel3D(首次证实大卷积核在3D视觉任务中的可行性和必要性)、BEVStereo(nuScenes纯视觉方案下3D目标检测的SOTA)等,这些成果均在行业中处于领先地位。
一直以来,旷视研究院作为旷视AI技术的研发“大脑”,专注于深度学习和计算机视觉领域,产出包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果,已发表超过120篇全球顶级会议论文,荣获冠军数超过40项,并拥有1300余件与业务相关的专利授权。
不同于单纯的科研机构或前瞻技术布局,旷视研究院作为实战型研究部门,其最新成果和研究方向通常不会脱离实际应用,因此,随着其在自动驾驶、智能汽车领域不断产出顶级成果,业界对其未来动向的关注度自然水涨船高。
与商汤科技相比,尽管商汤科技已推出专门的智能汽车业务品牌“绝影”,由联合创始人王晓刚领导,目标是成为商汤的新增长引擎,而旷视科技至今未正式宣布与智能汽车或自动驾驶业务相关的合作或产品,但这并不意味着旷视会持续保持沉默。
考虑到其在技术研究能力和实现水平上的卓越表现,以及已展示的自动驾驶预研Demo——仅使用7个摄像头即可实现高速公路、城市道路及泊车环境下的自动驾驶,甚至完成水平、垂直以及侧方位停车,旷视科技在智能汽车领域的布局和潜力不容小觑。
【智能车参考】原创内容,未经账号授权,禁止随意转载。