概览
在3月13日深夜,社交媒体上热传了一段视频,焦点在于Figure AI制造的人形机器人。此事件发生在2月底,Figure AI宣布获得来自OpenAI、微软、亚马逊、英伟达等公司的投资,融资总额达6.75亿美元。这次展示是由Figure AI与OpenAI合作实现的。
视频解析
视频中,Figure AI的人形机器人展现出视觉能力和语言表达能力,能够拿起桌面上的苹果并解释其行为。在人类提问后,机器人能够迅速做出反应,其手部动作与人类接近,表现出高效与灵活性。机器人通过端到端的神经网络处理输入信息,视频呈现的场景未进行加速处理。
技术合作
Figure AI的创始人Brett Adcock与AI团队负责人Corey Lynch解释称,该机器人整合了OpenAI的视觉推理与语言理解功能,而Figure AI的神经网络则负责执行快速、精准的动作。机器人将摄像头捕捉的画面与麦克风接收到的文字信息输入至OpenAI提供的视觉语言大模型(VLM),该模型能够理解和分析图像与文本。搭载的相机以每秒10帧的速度捕捉画面,随后神经网络以每秒200帧的速度输出一系列精确动作指令。该机器人无需远程控制,其行为完全基于学习所得。
进展与合作
两周前,Figure AI宣布与OpenAI合作,旨在推动机器人学习领域的边界。这段视频展示了双方合作的成果,展示了机器人与人类对话的能力。Figure AI成立于2022年,其旗舰产品Figure 01是一款通用机器人,经过最新一轮融资后,公司估值达到了约26亿美元。相较于之前展示的双腿行走、拾取塑料箱的任务,最新的视频聚焦于机器人与人类进行对话的能力。
行业动态
人形机器人领域正快速发展。特斯拉推出了Optimus Gen2,搭载了AI大模型,能够拾起鸡蛋;而在今年1月发布的视频中,特斯拉的机器人能够折叠衣物。与此同时,英国公司Engineered Arts的Ameca机器人也因其与人类的对话视频而受到关注,Ameca具备视觉能力,能够描述空间特征,如窗户状态和光线强度,并通过移动眼睛和嘴巴展现真实的表情。
OpenAI的角色
OpenAI不仅展示了其大模型在人形机器人领域的应用潜力,还在近期公布了与Figure AI的合作项目。此外,OpenAI的CTO Mira Murati透露,文生视频模型Sora预计将于年末发布,公司正在通过红队测试确保其安全性和可靠性。近期有消息指出,GPT-4.5 Turbo产品的相关信息出现在搜索引擎中,显示了OpenAI在大模型更新方面的积极行动。
结论
Figure AI与OpenAI的合作展示了人形机器人在视觉感知、语言交互以及快速响应能力方面的进步。随着技术的不断演进,人形机器人在与人类的互动中展现出越来越高的智能水平,这一领域正迎来快速发展的新时代。