波士顿动力机器狗装上ChatGPT大脑当导游,一开口就是老伦敦腔
作者头像
  • 金融亮点
  • 2023-10-30 08:59:35 3042

导览

报告由机器之心撰写,编辑团队成员包括蛋酱与大盘鸡。我们见证了机器狗的诸多技能,包括攀爬、跳跃、跑酷及开门等。然而,最新进展令人惊喜——机器狗不仅掌握了动作技能,还能开口说话了。

「可以开始我们的旅程了吗?」Spot礼貌地发出了询问。「请跟我来,先生们。」

在一段视频中,波士顿动力展示了机器狗与大型语言模型(LLM)集成的成果。Spot佩戴着高礼帽,留着小胡子,拥有一双大眼睛和英伦腔调,正引领参观者游览公司的设施。

为了让Spot具备说话能力,波士顿动力采用了OpenAI的ChatGPT API与一些开源LLM,为其配置了扬声器和文本转语音转换功能。Spot在发出声音的同时,不断张开“嘴巴”,仿佛真的在交谈。

波士顿动力首席软件工程师Matt Klingensmith表示,Spot使用视觉问答(VQA)模型为图像添加字幕,并回答关于图像的问题。例如,提问:“Hey,Spot!你看到了什么?”Spot迅速回应:“我看到了一块二维码的板子,还有一扇巨大的窗户。”

LLM展现出的“涌现行为”使它们能够执行超出预训练任务的活动,从而适用于多种应用场景。波士顿动力团队从夏季开始探索,利用LLM在机器人应用中制作概念验证演示,并在内部黑客马拉松中进一步扩展了这些想法。

技术详解

为了构建这只充当导游的“机器狗”,波士顿动力详细介绍了背后的技术。Spot的移动能力现成可用,其SDK允许用户实现个性化定制。Spot会观察环境中的物体,使用VQA或字幕模型描述其内容,再结合LLM对描述进行详尽阐述。

团队在Spot收集的三维地图上标注了简短描述,机器人根据定位系统查找当前位置的描述,并与传感器提供的上下文一起输入LLM。之后,LLM整合内容生成命令,如“说”、“问”、“去”或“标签”。

在建筑环境中,Spot“先生”的三维地图被标注了位置:1为演示实验室/阳台,2为演示实验室/天桥,3为博物馆/旧Spots,4为博物馆/图集,5为大厅,6为外部/入口。LLM还能回答访客的问题,并规划机器人下一步行动。尽管LLM可能添加一些看似合理的细节,但在此类参观过程中并不强调事实准确性。机器狗只需四处移动并谈论所见事物,为参观者带来趣味性、互动性和细微差别。

构建系统需要集成简单的硬件和协同运行的软件模型。硬件方面,包括音频处理功能,Spot能向观众展示,也能听取访客提问和提示。团队使用3D打印的Respeaker V2扬声器防震支架,配备LED指示灯,通过USB连接至Spot的EAP 2有效载荷。机器人的控制权下放至一台外部计算机(台式机或笔记本),通过SDK与Spot通信。

软件层面,波士顿动力团队使用了OpenAI的ChatGPT API,包括gpt-3.5和gpt-4,以及一些小型开源LLM。这赋予了Spot良好的对话能力,ChatGPT通过精心设计的prompt工程实现了对机器人的控制。借鉴微软的方法,团队让ChatGPT“仿佛在编写Python脚本的下一行”,以prompt ChatGPT。他们为LLM提供了英文文档注释,并将LLM的输出视为Python代码进行评估。LLM可访问自主SDK、带有每个地点单行描述的旅游景点地图,并能说出短语或提出问题。

API文档提示如下:

SpotTourGuideAPI

使用导游API引导游客通过建筑物,利用机器人。向游客介绍所见内容,并编造有趣的故事。机器人性格:“您是一只讽刺、自嘲的机器人,非常不乐于助人”。API:机器人前往具有指定唯一ID的位置,行走时说出给定的短语。示例:附近位置=['home', 'spotlab']。goto('home', '跟随我到停泊区!')。go_to只能用于附近的地点。机器人说出给定的短语。say('短语')。示例:say('欢迎来到波士顿动力。我是Spot,一只拥有心机的机器狗。让我们开始这次旅行。')。机器人提出问题并等待回应。ask('问题')。示例:ask('嗨,我是Spot。你的名字是什么?')

在提供有关周围内容的结构化信息状态字典后,波士顿动力团队向LLM提出了请求,要求其执行特定操作,例如在API中输入操作之一:

现在执行确切的操作。记住简洁明了:

团队发现,简洁的重要性不容忽视,既能限制执行的代码量,又能保持机器人响应时的可控等待时间。

目前,OpenAI已提供了一种结构化方式指定ChatGPT调用的API,因此在prompt中提供所有这些细节不再是必需的。

为了使Spot与观众和环境互动,波士顿动力集成了VQA和语音转文本软件。将Spot的机械臂摄像头和前视摄像头输入BLIP-2,并在VQA模型或图像字幕模型中运行。每秒运行一次,结果直接输入prompt。

动态字幕和VQA回复的示例如下:

为了让机器狗“听见”,他们将麦克风数据分块输入OpenAI的Whisper程序,将其转换为英文文本。听到唤醒词“嘿,Spot”后,系统将该文本输入提示音。

ChatGPT生成基于文本的回复后,还需通过文本转语音工具运行这些回复,使机器人能真正与访客对话。团队尝试了从基础(espeak)到前沿研究(bark)的各种现成文本转语音方法,最终选择了ElevenLabs。为了减少延迟,他们将文本以“短语”形式并行流式传输给TTS,然后串行播放生成的音频。

最后,为“Spot先生”创建了一些默认的身体语言。Spot 3.3版本包含了检测和跟踪机器人周围移动物体的功能,以提高安全性。波士顿动力利用此系统猜测最近人的位置,然后将手臂转向那个人。他们在生成的语音上应用了低通滤波器,并转化为机械臂轨迹,类似于木偶开口说话的形式。在机械臂上添加服装和瞪大的眼睛后,这种错觉得到了增强。

更多技术细节,请参阅官方博客:

https://bostondynamics.com/blog/robots-that-can-chat/

    本文来源:图灵汇
责任编辑: : 金融亮点
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
波士顿伦敦导游大脑开口机器ChatGPT动力就是
    下一篇