编者按
近期,上海数字大脑研究院(简称“数研院”)成功采用强化深度学习技术,将Transformer大型模型应用于四足机器人的跨地形、跨具身运动控制,显著提升了不同具身四足机器人在多种复杂真实地形上的操控能力,如同在平地上自如行走。该研究成果以两篇论文形式在国际机器人顶级会议ICRA 2023上发表,为自由、自主的运动控制奠定了坚实基础。
足式机器人,包括双足和四足两种类型,以其出色的灵活性和穿越复杂地形的能力,在替代人类执行巡逻、救援、故障检测、服务和侦察等任务方面展现出广阔的应用前景。足式机器人的运动控制主要分为两类方法:基于传统控制的轨迹优化与模型预测控制,以及深度强化学习。后者在复杂地形适应性上表现更为突出,通过在模拟环境中训练神经网络并将其应用于现实世界,实现“模拟到真实”的迁移,从而减少特定领域知识的需求,展现出更强的鲁棒性。
面对传统深度学习模型在复杂地形控制上的局限性,Transformer序列模型因其强大的模型容量和泛化能力,在自然语言处理和计算机视觉等复杂任务中表现出色。数研院探索了将此类模型应用于足式机器人控制的可能性,提出了针对跨地形四足机器人运动控制的Terrain Transformer(TERT)框架和跨具身四足机器人运动控制的Embodiment-aware Transformer(EAT)框架。
TERT框架采用离线预训练和在线修正的策略,通过模拟器提供的特权信息训练教师策略,以最大化设定的奖励函数。在这一过程中,教师策略指导生成的数据被用于训练Transformer模型,使其能够预测教师策略的动作。离线预训练阶段后,通过在线修正阶段,使用Transformer输出的动作与模拟环境互动,进一步提升模型性能。而EAT框架则通过在模拟器中训练多个不同具身的机器人控制策略,搜集对应具身下的专家数据,并结合具身向量e,训练Transformer模型完成多种具身的泛化。
数研院在宇树的A1四足机器人上对比了TERT与传统强化学习方法在不同地形上的控制效果,结果显示TERT在复杂地形如沙坑、下楼梯等方面表现出色,而传统方法则受限于简单地形。通过引入视觉信息,未来数研院计划进一步增强决策大模型在多样化环境下的鲁棒性控制能力。
数研院的研究成果在ICRA 2023会议上得到了展示,相关论文已发表,感兴趣的朋友可以访问以下链接获取详细信息:
随着技术的不断进步,数研院正积极探索将视觉信息整合进控制模型,旨在实现更全面、灵活的复杂环境适应性,推动足式机器人在实际应用场景中的发展。