波士顿动力机器狗装上ChatGPT大脑当导游,一开口就是老伦敦腔
作者头像
  • 廖青
  • 2023-10-30 08:59:35 3063

导览

波士顿动力公司近来展现了一项创新技术——将机器狗与大型语言模型(LLM)集成,创造出“Spot先生”。这台机器狗不仅具备了开口说话的能力,还能以一种颇具幽默感的老伦敦腔调引领参观者参观公司设施。

编辑:蛋酱、大盘鸡

在一段最新发布的视频中,Spot先生佩戴着高礼帽,留着小胡子,拥有大眼睛,仿佛一位穿着全套行头的绅士,正在带领众人参观波士顿动力的办公场所。为了让Spot能够“开口”,波士顿动力公司利用了OpenAI的ChatGPT API以及一系列开源LLM,为其配备了扬声器和文本到语音转换功能。在与参观者的互动中,Spot会不停张开“嘴巴”,仿佛在真实对话。

Spot先生运用VQA模型为图像添加字幕,并对图像进行问答。例如,当被问及“嘿,Spot!你看到了什么?”时,Spot先生迅速回答:“我看到了一块二维码的板子,还有一扇很大的窗户。”

技术解析

为了实现这一目标,波士顿动力团队设计了Spot的SDK,使得机器狗能进行自定义动作。Spot会观察环境中的物体,并使用VQA或字幕模型对其进行描述,随后,通过LLM对描述进行详细的解释。团队在Spot收集的三维地图上标注了简短的描述,机器人根据定位系统查找当前位置的描述,并结合传感器提供的上下文信息输入LLM。之后,LLM将这些内容整合为指令,如“说”、“问”、“去”或“标签”。

硬件集成

硬件方面,团队为Spot装配了Respeaker V2扬声器,通过3D打印制作了一个防震支架,搭配环形阵列麦克风,通过USB连接至Spot的EAP 2有效载荷。机器人的控制权下放给一台外部计算机,通过SDK与Spot进行通信。

软件开发

软件层面,波士顿动力团队利用了OpenAI的ChatGPT API,包括gpt-3.5和gpt-4,同时也测试了一些小型开源LLM。通过精心设计的prompt工程,ChatGPT被赋予了对话能力,控制机器人及其“言语”。借鉴微软的方法,他们让ChatGPT模仿编写python脚本的下一行,以此激发ChatGPT的输出。团队为LLM提供了英文文档作为注释,并将LLM的输出视为python代码进行评估。此外,团队为LLM提供了一个关于其周围内容的结构化信息状态字典。

API文档

API文档包含了指导Spot进行操作的具体指令: - go_to(location_id, phrase):让机器人前往指定位置并说出给定的短语。 - say(phrase):让机器人说出指定的短语。 - ask(question):让机器人提出问题,并等待回复。

状态字典

状态字典包含了机器人的当前位置、描述、附近的地点以及机器人的视觉感知信息: state={ 'curr_location_id': 'home', 'location_description': 'home base. There is a dock here.', 'nearby_locations': ['home', 'left_side', 'under_the_stairs'], 'spot_sees': 'aware house with yellow robots with lines on the floor.' }

语音与交互

为了使Spot能够“听见”,团队将麦克风数据分块输入OpenAI的Whisper程序,将其转换为英文文本。当听到唤醒词“嘿,Spot!”后,系统将文本输入提示音。ChatGPT生成基于文本的回复后,通过文本转语音工具运行这些回复,使机器人能够与参观者进行真实的对话。

肢体语言

最后,为了增强“Spot先生”的互动体验,团队为他创造了一些默认的肢体语言。借助Spot的3.3版本功能,检测和跟踪机器人周围移动物体,以提升安全性。波士顿动力利用此系统预测最近人的位置,并引导手臂朝向那人。在生成的语音上使用低通滤波器,并转化为机械臂轨迹,模拟出类似木偶开口说话的效果。在机械臂上添加衣物和瞪大的眼睛,进一步强化了这种错觉。

欲了解更多技术细节,建议阅读原始博客文章: https://bostondynamics.com/blog/robots-that-can-chat/


这段改写试图保留原文的核心信息,同时在语言风格、表达方式上进行了调整,以确保与原文有明显区别,同时保持信息的准确性和完整性。

    本文来源:图灵汇
责任编辑: : 廖青
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
波士顿伦敦导游大脑开口机器ChatGPT动力就是
    下一篇