语言中充满了视觉格言,如“眼见为实”、“一幅画胜过千言万语”、“眼不见,心不烦”等。这是因为人类从视觉中获取了大量的意义。然而,早期的生命并不具备视觉能力。直到约5.4亿年前,所有生物都生活在水下,无法看见任何东西。只有当三叶虫出现时,动物们才首次感知到了阳光的丰富。
接下来发生的事情是非凡的。在接下来的1000万至1500万年间,视觉能力开启了寒武纪大爆发时期,大多数现代动物的祖先在这个时期出现。如今,我们正经历着人工智能(AI)的现代寒武纪大爆发。每周都有新的、令人惊叹的工具涌现。起初,生成式AI革命主要由像ChatGPT这样的大型语言模型推动,它们模仿人类的语言智能。
但我认为,基于视觉的智能,我称之为“空间智能”,更为重要。语言固然重要,但作为人类,我们理解和与世界互动的能力在很大程度上基于我们所看到的。一个名为计算机视觉的AI子领域,致力于教会计算机拥有与人类相同或更好的空间智能。在过去15年中,该领域取得了快速发展。在以AI以人为本的核心信念指导下,我将我的职业生涯奉献给了这一领域。
没有人教孩子如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五张“照片”。到三岁时,孩子们已经看过数亿张这样的“照片”。我们需要从大型语言模型转向大型世界模型。
我们知道,经过数十年的研究,视觉的一个基本元素是物体识别,因此我们开始教计算机这种能力。这并不容易。将一只猫的三维(3D)形状呈现为二维(2D)图像的方式是无穷无尽的,这取决于视角、姿势、背景等因素。为了让计算机在图片中识别出一只猫,它需要拥有大量信息,就像一个孩子一样。这一切直到2000年代中期才成为可能。那时,被称为卷积神经网络的算法,经过数十年的发展,遇到了现代GPU的强大能力和“大数据”的可用性,这些数据来自互联网、数码相机等的数十亿张图像。我的实验室为这一融合贡献了“大数据”元素。在2007年,我们在一个名为ImageNet的项目中创建了一个包含1500万张标记图像的数据库,涵盖22000个物体类别。然后,我们和其他研究人员使用图像及其相应的文本标签训练神经网络模型,使模型能够用简单的句子描述之前未见过的照片。利用ImageNet数据库创建的这些图像识别系统的意外快速进展,帮助引发了现代AI热潮。
随着技术的进步,基于变换器架构和扩散等技术的新一代模型带来了生成性AI工具的曙光。在语言领域,这使得像ChatGPT这样的聊天机器人成为可能。在视觉方面,现代系统不仅能够识别,还可以根据文本提示生成图像和视频。尽管结果令人印象深刻,但仍然局限于2D。为了让计算机具有人类的空间智能,它们需要能够建模世界、推理事物和地点,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。我们已经在学术界和工业界的实验室中看到了这一点的初步迹象。借助最新的AI模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以通过文本提示来控制机器人,例如要求它们拔掉手机充电器或制作一个简单的三明治。或者,给定一张2D图像,该模型可以将其转化为用户可以探索的无限数量的合理3D空间。
应用是无穷无尽的。想象一下,能够在普通家庭中导航并照顾老人的机器人;为外科医生提供不知疲倦的额外帮助;或者在模拟、培训和教育中的应用。这是真正以人为中心的人工智能,空间智能是它的下一个前沿。人类进化了数亿年所取得的成果,现在在计算机中仅需几十年就能实现。而我们人类将是受益者。