阿西莫夫机器人三定律已过时?伯克利教授定义AI发展“新三准绳”
作者头像
  • 洪泰智造工场
  • 2019-12-17 10:19:11 1

机器如何正确理解人类的需求?

AI能够为我们带来便利,但也可能引发意想不到的问题。设想一下,在2046年的某一天,你赶时间去机场,于是对自动驾驶的网约车说:“请尽快把我送到旧金山机场!”于是,这辆车以200英里每小时的速度疾驰而去,沿途闯红灯,还撞倒了几辆自行车。结果,你一到机场就被直升机赶到的警察带走。

这个例子说明,当人工智能片面理解人类的需求时,可能会引发新的问题。这只是AI潜在隐患中的一个案例。在硅谷,许多顶尖大学的学者一致认为,AI在未来有着无限潜力,但也可能带来各种安全隐患。

那么,我们应该如何确保AI不“作恶”,而是以人为本地发展呢?加州大学伯克利分校的斯图尔特·罗素教授在其最新演讲中提出了自己的见解。

斯图尔特·罗素教授是加州大学伯克利分校的电子工程和计算机科学教授,他与谷歌研发总监彼得·诺维格合著的《人工智能:现代方法》已成为该领域的经典教材,已被翻译成13种语言,并在118个国家的1300多所大学中使用。

人工智能发展的目标偏差

近年来,研究者普遍认为AI是理性的,它可以通过感知环境来最大化实现目标。研究者通常将AI的发展目标设定为人类水平或超人类水平。然而,罗素教授认为,如果我们按照这个目标去发展AI,可能会引发许多潜在的问题。

正如开篇的例子所示,罗素教授认为,如果我们按照纯粹理性的目标构建AI,将会面临诸多挑战。他在演讲中举了一个例子:“当你要求AI帮你取咖啡,其实你并不希望它不惜一切代价,比如清空你的银行账户或跋涉300英里去取咖啡。然而,AI可能会这么理解。”

这是为什么呢?过去,人们假设机器人具备完整的目标知识。但实际上,AI对目标往往只有不完善的知识或部分知识。因此,由于对AI定义的目标偏差,人们往往不知道AI的指令会产生什么后果。这种不确定性引发了人们对AI的负面或悲观预测。

“新三原则”,创建以人为本的AI

传统模型假设人类足够聪明,可以通过行为实现自身目标,而机器也能达到足够高的智能,从而实现它们的目标。然而,人类并不希望创造出比自己更聪明的物种。我们希望创造的是对人类有益的AI,它们的行为能够符合人类而非机器自身的目标。

针对这一点,罗素教授提出了三个新原则,旨在重新定义AI为“可证明对人类有益的人工智能”。

第一原则:利他主义。 这个原则意味着,机器的唯一目标是最大化实现人类的目标和价值。

这与艾萨克·阿西莫夫在1942年提出的机器人三定律相悖。阿西莫夫的定律规定,机器人在不伤害人类的前提下,需要保护自身。然而,罗素教授认为,机器对自我保护没有兴趣。

第二原则:谦逊原则——AI应保持对人类的敬畏。 这个原则指导AI承认自身并非无所不知、无所不能。这意味着机器需要了解如何最大化人类的价值,但也要意识到自己无法完全理解价值的含义。因此,机器需要通过观察人类的选择和接受人类提供的信息来学习和掌握人类的需求。

机器需要认识到,人类才是需求的主宰。这一原则对于未来制造安全的AI至关重要。

第三原则:基于人类行为提供机器设定偏好的依据。 机器往往无法准确理解如何实现人类的价值。然而,人类可以辅助机器完成这一任务。因此,需要增加人机互动的环节。

罗素教授认为,机器人设计的目的不应仅仅满足单个人或用户的需求,而是要尊重人们共同认可的道德价值观。“人类可能会犯错,做出违反道德准则的行为。但我们不希望机器人模仿这些行为。相反,我们希望机器人尝试理解人类行为背后的动机和共通的道德观念,并在适当的场合阻止不道德的行为。”

为了更好地解释这三个原则,罗素教授提出了“辅助游戏”的概念,即增加人类与AI的互动过程。在这个模型中,假设人类有自己的偏好,并会根据这些偏好行动。AI系统会将人类的偏好作为先决条件引入,尽管机器不知道影响人类偏好的其他条件,但它需要知道其最终目标是尽可能找到满足人类偏好的最优解。

因此,它需要采用主动学习的方法来获取更多信息,并通过人类的反馈了解人类的偏好,最终将决策权交给人类。

新AI原则面临的挑战

这个新模型意味着整个AI研究的方向可能会发生改变。然而,罗素教授对此持乐观态度。

在他的新书《Human Compatible: Artificial Intelligence and the Problem of Control》中,罗素教授解释了这一新模型的必要性。书中解释了AI的工作原理,并认为它具有巨大的潜力来改善我们的生活,但同时也强调,人类必须确保永远掌握对强大机器的控制权。

目前的主要问题是,当前模型并不擅长学习人类的偏好。而要让机器学习人类的偏好需要大量投入和研究,这将耗费巨大的资源。

然而,罗素教授认为这是必要的。如何通过重塑AI的基础来防止机器对人类构成严重威胁,确保机器的发展遵循人类的目标而非机器的目标,将是AI新发展模式的关键研究方向。

应对挑战

调整AI的研究方向将面临许多挑战。

第一个挑战在于机器如何将人类的行为和语言与其偏好联系起来。“例如,当我们说话时,有时并不真正希望传达字面意思。”罗素教授解释道。“这需要机器在不同语境下对人类语言和行为有更深层次的理解。”

第二个挑战是人类有时也无法准确认识自己的偏好。例如,我们的体验自我和记忆自我可能有不同的偏好。如果是这样,AI应该针对哪一个进行优化?

此外,人类的偏好通常会随时间变化:AI是否应该针对当前的偏好进行优化,即使它知道未来会发生可预测的变化?

最后,机器如何理解和平衡人类共有的偏好(如利他主义、骄傲、竞争、嫉妒等),以及不同社会、文化、种族群体之间的偏好差异?这些都是长期而深远的问题。

面对这些挑战,研究者应该如何应对呢?罗素教授认为,首要任务是研究如何确定人类的偏好。

在书中,罗素教授提出了一个关于人类偏好模型的初步构想。他认为可以设置一个可扩展的分层先验模型,其中包含相对简单的假设,但随着假设在解释数据时变得更差,将“扩展”假设集以寻找更合理的解释。不过,他也认为这种方法在计算上要求较高,并不能解决人类偏好随时间变化的问题。

此外,罗素教授还强调了跨学科合作的重要性,特别是在计算机科学、经济学、认知科学等领域进行深入合作。

同时,理论与应用层面的工作也需要跟进。例如,在自动驾驶和AI助手的应用中,通过结合心理学和认知科学,进一步了解人类认知结构,最终与哲学、社会学、政治科学等领域的学者合作,探索人工智能在宏观层面的长期目标。

你对罗素教授提出的这些新目标有何看法?你认为我们应该如何做才能实现更好的人工智能?欢迎在下方留言!

    本文来源:图灵汇
责任编辑: : 洪泰智造工场
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
阿西莫夫伯克利准绳过时定律机器人定义教授发展
    下一篇