近年来,研究人员一直在探索让机器人学习新技能的各种方法。其中一种方法是让机器人从人类那里学习,当它们不确定如何操作时,可以从人类用户的反馈中获得学习。
斯坦福大学的研究团队最近开发了一种更加用户友好的自动奖励学习方法,这种方法通过让用户回答问题来训练机器人。在一篇发表于arXiv上的论文中,他们介绍了一种新方法,这种方法可以让机器人自动提出一些简单且有效的问题,这些问题对于人类用户来说易于回答,同时也能让机器人从中学习。
研究团队表示:“我们对机器人如何学习人类的需求非常感兴趣。”“一种直观的学习方式是通过提问。比如,您更倾向于谨慎驾驶还是自动驾驶?又或者,自动驾驶汽车应该在人类驾驶的车辆之前还是之后合并?”这项研究的核心假设是,机器人应提出尽可能少但有价值的问题,以获取尽可能多的信息。
然而,目前大多数基于问答的训练方法往往没有考虑到用户回答这些问题的难易程度。这常常导致用户花费大量时间回答大量不必要的问题,或者难以给出明确的回答。
研究团队指出:“我们发现大多数现有的先进算法都无法区分不同的用户选项,这使得用户很难准确回答机器人的提问。”“例如,有些方法可能会问:‘您希望以29英里/小时还是31英里/小时的速度在人工驾驶汽车前合并?’这种问题对于机器人来说是有价值的,但对于用户来说却过于接近,难以做出可靠的回答。”
为了克服现有自动学习方法的局限性,研究团队开发了一种算法,该算法能够选择更具针对性的问题来询问用户。该算法的目标是最大限度地减少机器人对用户偏好的不确定性,同时考虑用户回答这些问题的难易程度。
研究团队解释道:“受到先前工作不足之处的启发,我们在开发这种算法时,特别关注了用户回答机器人提出的问题的能力。”“只有当机器能够准确、高效地评估用户的回答能力时,它才能更好地学习人类的需求。”
研究团队通过计算信息增益(即不确定性减少的程度)来衡量问题的有效性。信息增益最大化的问题将显著减少机器人对用户偏好的不确定性。这为机器人提供了一个明确的目标,使其能够选择最有用的问题。
“信息增益的一个优点在于,它不仅能够最大化机器人的不确定性(以便从问题中获得更多信息),同时也能最小化人类的不确定性(使问题更容易回答)。通过使用信息增益来生成问题,不仅可以提高自动学习的效果,还可以减少用户的错误反馈。”
研究团队设计的方法每次都会选择在当前状态下信息增益最大的问题。从本质上讲,机器人对用户的偏好保持一种信心(即概率分布),并从这种信心和可能的问题空间中选取样本。
最终,机器人会选择那些在当前条件下提供最多信息增益的问题。然后,它会根据用户的回答更新其对用户偏好的理解。这一过程不断重复,使机器人能够逐步提高其性能。
研究团队表示:“我们提出了一种计算简便的方法,可以快速发现用户对真实任务的偏好,效果优于传统方法。”“在我们的实验中,用户更喜欢我们的方法,而非其他先进的技术。”
研究团队通过一系列模拟实验验证了他们的自动奖励学习方法,结果显示该方法能够让机器人比其他最新方法更快、更准确地理解用户的偏好。即使在用户难以准确回答问题的情况下,该方法依然表现良好。
研究团队还进行了一项用户研究,要求参与者回答他们方法生成的问题,以及其他最新方法生成的问题。收集到的反馈显示,用户认为他们方法生成的问题更容易回答。此外,用户普遍认为,使用新方法的机器人能够更准确地反映他们的偏好。
研究团队总结道:“综合来看,我们的研究朝着让机器人更好地理解人类需求的方向迈进了一步。”“我们证明了,机器人可以通过提出信息量大的问题来获取尽可能多的信息,而这一目标可以在与现有方法相同的计算复杂度下实现。”
未来,这项自动奖励学习技术有望帮助更有效地训练机器人,使其更好地满足用户的偏好。此外,它还可以用于教导机器人提出人类能够轻松理解和回答的问题。在未来的探索中,研究团队还计划研究如何训练机器人对其行为进行有意义的解释。
研究团队表示:“我们对机器人感到兴奋,它们不仅能提出有价值的问题,还能解释为什么要提出这些问题。”“想象一下,一辆自动驾驶汽车将两种不同的合并方案可视化,然后解释为什么提出这些问题,因为现在正值交通高峰期,它需要确定自己的行为是否应该更加主动。”