用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

杨文雯
2023-12-03 16:40:46 3055

+关注

导语：

微软提出了一种创新方法，旨在通过直接观察人类的手部运动视频，教会机器人执行特定任务。这项技术采用GPT-4V来解析视频中的动作，并结合大型语言模型生成对应的行为描述，形成任务列表。只需轻触操作，机器人即可完成任务。

关键点提炼：

新方法概述：微软提出了一种直接利用人手运动视频指导机器人执行任务的策略，通过分解视频动作并结合大语言模型生成行为表述，简化了机器人训练流程。
转换机制：方法跳过了传统数据收集和模型训练的繁复过程，利用通用模型（如ChatGPT或GPT-4）将语言和视觉输入转换为机器人可执行的动作。
技术优势：这种方法显著提高了系统的灵活性，增强了对不同机器人硬件的适应性，提升了研究和工业应用的可重用性。
视觉大模型集成：借助GPT-4V等通用视觉大模型，将视觉系统融入任务规划中，为基于多模态人类指令的机器人任务规划开辟了可能性。
系统结构：系统由两部分组成——符号任务规划器和能力分析器。前者负责解析输入视频或文本指令并输出机器人动作序列；后者分析视频以确定任务执行的时机和所需的能力信息。
技术细节：
- 符号任务规划器：通过视频分析、场景分析和任务规划三个步骤，将人类行为的视频或文本指令转化为机器人可执行的动作序列。
- 能力分析器：根据任务规划和视频内容，提取执行任务所需的能力信息，如接近物体的方式、抓握类型等。
实验成果：该系统已成功应用于多个真实机器人场景，展示了其在不同机器人硬件上的广泛适用性，验证了其在实际操作中的可行性。