为什么机器学习很难学习因果关系?
作者头像
  • 王诗
  • 2021-04-16 13:37:10 0

【编者按】尽管现有的机器学习模型在过去取得了显著的进步,但这些模型基本上只是在对数据进行了更精确的拟合。这意味着它们在功能上有所提升,但在基本理念上并未取得重大突破。那么,如何推动人工智能社区解决这一问题呢?

作者 | Ben Dickson,已获作者翻译授权

译者 | 弯月

出品 | CSDN

在观看一段简短视频时,我们可以推断出不同元素之间的因果关系。比如,看到球棒和棒球选手的手臂一起移动,我们知道是选手的手臂运动带动了球棒。并且,我们知道如果这一棒击中了球,球的运动方向会立即改变。

同样,我们也可以进行一些反事实推理,例如,如果球飞得再高一点,而且球棒没有击中球,结果会如何。

这种推理对于人类来说是自然而然的,我们从小就开始学会这种推理,不需要他人的指导,只需要观察世界即可掌握。尽管机器学习算法可以在复杂的任务如国际象棋中击败人类,但因果关系仍然是一个难题。机器学习算法,特别是深度神经网络,非常善于通过大量数据识别难以察觉的模式。它们可以实时将音频转换为文本,每秒标记成千上万的图像和视频帧,并且可以通过X射线和MRI扫描检测癌症的迹象。然而,它们在执行简单的因果推理方面仍然存在困难。

Max Planck智能系统研究所、蒙特利尔学习算法研究所和Google研究所在题为《Towards Causal Representation Learning》的论文中探讨了机器学习模型因缺乏因果表示而产生的问题,并指出了创建能够学习因果表示的人工智能系统的方向。

这是研究人员为探究和解决机器学习缺乏因果关系问题所做的多项努力之一,现在这个问题已经成为克服该领域一些关键挑战的关键。

机器学习模型为何无法推广到其狭窄的范畴和训练数据之外?

论文的作者指出:“机器学习通常忽略了动物大量使用的因果信息,例如对世界的干预、范畴的变化以及时间的结构。我们认为这些因素很麻烦,需要进行改进。因此,机器学习当前的成功主要来源于对独立同分布数据的大规模识别。”

独立同分布(i.i.d.)数据是机器学习中常用的术语。它假设随机观测之间相互独立,且发生的概率不变。最简单的例子就是投硬币或掷骰子。每次投掷的结果与其他投掷无关,且每种结果的概率保持不变。

在更复杂的领域,如计算机视觉,机器学习工程师试图通过在大量示例上训练模型,将问题转化为独立同分布的范畴。他们假设,如果示例足够多,机器学习模型可以将问题的大致分布编码成参数。但在现实世界中,由于未考虑或无法控制的因素,这些分布常常发生变化。例如,卷积神经网络即使经过数百万张图像的训练,也可能在光照条件变化、角度调整或背景不同的情况下失效。

为了应对这些挑战,研究人员的主要努力是增加更多的训练数据。但在环境日益复杂的情况下,通过添加更多训练数据来覆盖整个分布几乎是不可能的。在AI智能体需要与世界交互的领域,如机器人和自动驾驶汽车,尤为如此。由于缺乏对因果关系的理解,机器学习算法很难做出预测并应对新情况。这就是为什么即使无人驾驶汽车经过数百万英里的训练,仍会出现一些奇怪的错误。

AI研究人员表示:“为了准确概括独立同分布数据,机器学习算法不仅需要学习变量间的统计关系,还需要学习潜在的因果模型。”

人类可以通过因果模型将以前获得的知识应用于新情境。例如,在玩《魔兽》等即时战略游戏时,可以迅速将学到的知识应用于其他类似游戏,如《星际争霸》和《帝国时代》。然而,机器学习算法中的迁移学习仅适用于表面情况,例如微调图像分类器以检测新对象。在处理更复杂的任务,如学习视频游戏时,机器学习模型需要大量的训练(可能需要玩数千年的游戏),并且一旦环境发生变化,响应就会出现问题。

因果机器学习论文的作者写道:“因果模型只需更少的样本就能适应新环境,因为大多数知识(即模块)无需重新训练即可重用。”

既然我们知道独立同分布数据存在缺陷,为什么还要通过这种方式训练机器学习算法呢?完全基于观察的方法具有可扩展性。可以通过添加更多训练数据来不断提高准确性,并可以通过增加计算能力来加速训练过程。实际上,近年来深度学习成功的关键因素之一就是更多的数据和更强的处理器。

此外,基于独立同分布的模型易于评估。可以在获得大型数据集后,将其分为训练集和测试集,根据训练数据调整模型,并用测试集评估准确性。可以持续训练,直到达到所需精度。许多公共数据集提供了这样的基准,如ImageNet、CIFAR-10和MNIST。还有一些特定的数据集,如用于COVID-19诊断的COVIDx数据集,以及威斯康星州乳腺癌诊断数据集。在所有这些情况下,我们面临的挑战都是相同的:开发可以根据统计规律预测结果的机器学习模型。

然而,正如AI研究人员在论文中所观察到的那样,准确的预测往往不足以提供决策依据。例如,在疫情期间,许多机器学习系统出现了问题,因为它们是基于统计规律训练的,而不是因果关系。一旦生命形式发生变化,模型的准确性就会下降。

因果模型在面对因外界干扰而改变统计分布的情况时仍然有效。例如,第一次看到某个物体时,我们的思维会自动排除光线等外观因素的影响,因此在不同的光照条件下,我们仍能识别该物体。

此外,因果模型使我们能够应对以前从未见过的情况,并进行反事实推理。我们无需亲自开车冲下悬崖就能知道后果是什么。反事实推理可以大幅减少机器学习模型所需的训练示例。

因果关系对于应对对抗性攻击也很重要,对抗性攻击是指通过巧妙的操纵,迫使机器学习系统产生意外结果。论文的作者指出,这些攻击破坏了基于统计的机器学习所依赖的假设,即独立同分布的数据。对抗性漏洞证明了人类的智慧水平与机器学习算法的鲁棒性之间的差距。研究人员还提出,因果关系是防御对抗性攻击的一种手段。

从广义上讲,因果关系可以解决机器学习缺乏通用性的问题。研究人员表示:“可以说,当前的大多数做法(处理独立同分布的基准问题)和大多数实际结果(关于独立同分布设置中的泛化)都无法处理不同问题之间的泛化。”

AI研究人员在论文中介绍了创建因果机器学习模型的一些关键概念和原则,包括“结构因果模型”和“独立因果机制”。这些原则指出,AI系统不应寻找表面的统计相关性,而应寻找因果变量,并将它们对环境的影响区分开来。

无论视角、背景、光线和其他噪声如何,这种机制都可以检测到不同的物体。这些因果变量之间的分离使AI系统在应对不可预测的变化和干预时更加稳健。因此,因果AI模型不需要庞大的训练数据集。

因果机器学习论文的作者表示:“无论是通过外部的人类知识,还是通过学习获得因果关系,一旦建立了因果模型,因果推理就可以基于干预、反事实和潜在结果得出结论。”

此外,作者还讨论了如何将这些概念应用于机器学习的不同分支,包括强化学习(强化学习对于智能体探索环境并通过反复试验找到解决方案至关重要)。因果结构可以提高强化学习的效率,因为机器学习模型可以从一开始就做出好的决策,避免采取随机且不合理的行动。

关于如何构建结合了机器学习机制与结构因果模型的AI系统,研究人员提供了一些构想:“为了将结构因果模型与表示学习相结合,我们应该努力将SCM嵌入到更大的机器学习模型中,这些模型的输入和输出是高维非结构化的,但部分外部操作可以由SCM控制(可以经过神经网络设置成参数)。这样就可以得到模块化的架构,并且不同的模块可以分别进行微调,然后应用到新任务。”

这些概念可以让我们的模型更接近人类思考的方式,实现类似于人类大脑不同区域和领域之间知识和技能重用的效果。

需要注意的是,论文中提出的想法目前仍处于概念阶段。正如作者所说,这些概念的实现面临几个主要挑战:

  1. 在许多情况下,我们需要根据底层输入的特征推断抽象的因果变量;
  2. 尚不清楚通过哪些数据方面来挖掘因果关系;
  3. 常规的训练集和测试集实验方案不足以推断和评估现有数据集的因果关系,我们需要创建新的基准,例如考虑环境信息和干预的基准;
  4. 即便在我们所了解的大多数情况下,我们仍缺乏可扩展且可用数学证明的算法。

然而,该论文的研究人员从该领域的其他工作中汲取了灵感。论文引用了图灵奖得主Judea Pearl的《因果推理》。同时,论文的作者之一Yoshua Bengio也是图灵奖得主。

该论文的部分思想与Gary Marcus提出的混合AI模型(即将符号系统的推理能力和神经网络的模式识别能力结合起来)不谋而合。不过,论文并未直接引用混合系统。

此外,论文与NeurIPS 2019年AI大会Bengio发表的演讲《系统2深度学习》中的概念相吻合。该演讲背后的思想是创建一种可以从数据中学习更高表示的神经网络架构。更高的表示对于因果关系、推理和迁移学习都非常重要。

虽然目前尚不清楚哪种方法有助于解决机器学习的因果关系问题,但不同思想流派的汇聚与碰撞一定会产生不同的火花。

“从根本上讲,模式识别只是数学的抽象,而因果关系对于大多数形式的动态学习来说都是必不可少的。迄今为止,机器学习一直忽视了因果关系的整合,而这篇论文认为因果关系概念的整合可以带来丰富的成果。”

原文链接:https://bdtechtalks.com/2021/03/15/machine-learning-causality/

声明:本文由CSDN翻译,转载请注明出处。

    本文来源:图灵汇
责任编辑: : 王诗
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
学习因果关系机器为什么
    下一篇