导览
本文摘自谷歌官方博客,由机器之心团队翻译整理,编纂者为王强。未来,机器人或许能成为我们生活中的得力助手,尤其是处理那些繁琐且需要精细操作的任务,比如垃圾分类。
强化学习(RL)为机器人提供了一种通过不断尝试与错误学习复杂技能的方法,随着时间的推移,其性能逐渐提升。谷歌先前的研究揭示了强化学习如何助力机器人掌握诸如抓取物体、执行多任务、甚至进行乒乓球比赛等复杂技巧。尽管强化学习在机器人领域取得了显著进展,但在日常生活中应用强化学习驱动的机器人仍面临诸多挑战。这是因为现实世界的环境极为复杂且不断变化,对机器人系统构成巨大考验。然而,强化学习被视为应对这些挑战的理想工具——通过持续练习、迭代改进和在实践中学习,机器人应能适应不断变化的环境。
谷歌在论文《Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators》中深入探讨了如何运用大规模实验解决这一问题。研究团队构建了一个由23个支持强化学习的机器人组成的集群,旨在在谷歌办公楼内实施垃圾分类和回收行动。该系统巧妙地结合了来自真实世界数据的可扩展深度强化学习与模拟训练中的引导性输入,以增强泛化能力,同时保留端到端训练的优势。通过4800次评估试验,对240个垃圾站点进行验证,确保了系统稳定性和效率。
具体问题设定
在办公楼环境中,机器人需执行垃圾分拣任务。它们需在各垃圾站间穿梭,识别并分类不同类型的垃圾,包括易拉罐、瓶子放入可回收垃圾箱;纸板容器、纸杯归入堆肥垃圾箱;其余物品则投入其他垃圾箱。这一过程看似简单,实则充满挑战,尤其是对于机器人识别并正确放置不同物品的能力而言。面对真实办公环境中的各种独特情况,机器人需展现出极高的灵活性和适应性。
多元化的学习经验
为促进机器人的成长,谷歌采用了一系列经验来源,以构建基础技能和引导学习过程:
强化学习框架
研究团队采用基于QT-Opt的强化学习框架,用于实验室环境下的抓取等技能训练。从简单的脚本策略出发,通过强化学习优化性能,并借助CycleGAN和RetinaGAN技术提高模拟图像的真实性。在“机器人教室”中,机器人通过大量重复练习,不断提升自身能力。
分类性能提升
经过“机器人教室”和实际部署环境的多次迭代,研究团队收集了大量的实验数据。通过分析,系统性能得到显著提升,最终准确率稳定在约84%。在实际应用中,研究人员记录了从2021年到2022年的统计数据,表明系统成功减少了垃圾中污染物的重量达40%-50%。
结论与未来展望
实验成果证明,基于强化学习的系统能够有效处理实际任务,特别是在真实办公环境中的应用。离线与在线数据的结合增强了机器人适应复杂环境的能力。在控制性更强的“教室”环境中进行学习,无论是仿真还是实际操作,都能为强化学习的“飞轮效应”提供强大的动力,促进机器人的自我完善与优化。
尽管已取得突破性进展,仍有待解决的问题包括:优化强化学习策略以提升性能,扩大任务范围,并探索更多经验来源,如其他任务、其他机器人乃至互联网视频资源,以丰富机器人的学习路径。这些都是未来研究的重要方向。