人工智能在图像辨认时偏爱纹理,而不是轮廓,迷信家给出解释
作者头像
  • 舒尚娥
  • 2019-11-01 06:40:35 3

当你看到一张猫的照片时,无论是黄色的、条纹的、黑白的还是斑点的,你都能轻松辨认出来。即使是在枕头后面或桌子上的影子中,你也能够迅速识别它们。人类在各种情况下都能自然而然地辨认猫,而深度学习算法虽然在固定条件下可能比人类更精确地识别图像,但在图像存在噪声或颗粒状干扰时,它们的表现就会大打折扣。

德国的研究团队发现了一个令人惊讶的原因:当人类依靠物体形状时,深度学习算法则更关注纹理。这一发现揭示了人类与机器在处理图像时的不同思维方式,同时也展示了我们对于人工智能工作原理的理解可能存在误区。这项研究在今年5月的“学习表征国际会议”上发布。

深度学习算法通过展示数以千计包含或不包含猫的图像来学习。这些系统从大量数据中寻找规律,并利用这些规律来判断未知图像的内容。尽管神经网络的结构模仿了人类视觉系统,但它通过一个“黑箱过程”来进行判断,而人类只能在事后尝试解释这一过程。

俄勒冈州立大学的计算机科学家托马斯·迪特里希指出,研究者们试图弄清楚深度学习算法为何成功以及为何失败。他们通过对修改后的图像进行测试,观察算法如何反应。结果显示,即使是微小的改动也可能导致算法完全错误地标注图像,而较大的改动有时也无法让算法改变其标注。

德国图宾根大学的计算神经学家马蒂亚斯·贝斯格和心理学家菲利克斯·威克曼的团队采用了更为定性的方法。他们在去年报告称,当训练神经网络识别受到特定噪声干扰的图像时,网络在处理具有相同类型失真的新图像时表现优于人类。然而,当这些图像以略微不同的方式改变时,网络却完全失效,尽管在人类看来,新的失真与旧的几乎一样。

图宾根大学的计算神经科学研究生罗伯特·吉尔霍斯试图了解为何深度学习算法如此容易受到图像噪声的影响。这一研究揭示了算法倾向于优先考虑纹理而非形状的特点。贝斯格和威克曼实验室的研究生、这项研究的主要作者吉尔霍斯表示,长时间的噪声添加会让物体的形状基本保持完整,但图像中的局部结构会迅速扭曲。

为了测试人类和深度学习系统如何处理图像,研究人员将两种物体的元素混合在一起,例如用大象的纹理填充在猫的轮廓中。在展示数百张这样的图像后,人类几乎每次都根据形状(如猫、熊、飞机)进行分类,而四种不同的分类算法则更多依赖于纹理进行分类。这改变了人们对深度学习神经网络如何进行视觉识别的理解。

乍一看,人工智能偏好纹理而非形状似乎有些奇怪,但其实有其合理性。克里格斯科特解释说,纹理可以被视为精细尺度上的形状,更容易被系统捕捉。因为包含纹理信息的像素数量远超构成物体边界的像素数量,而网络的最终步骤包括检测轮廓等部分特征,这些特征足以让网络执行图像分类任务。

布伦德尔在会议上发表的一篇论文中进一步说明了这一点。他建立了一个深度学习系统,该系统运行方式类似于深度学习出现前的分类算法,即作为一个“特征包”。这种系统将图像分割成小块,而不是逐步提取特征,而是直接决定每个小块的内容,再将这些元素组合起来确定对象身份,而不考虑它们之间的全局空间关系。尽管如此,该系统仍能以极高的准确性识别物体。

布伦德尔表示,深度学习正在做以前从未做过的事情。尽管如此,这一飞跃并未达到一些人的预期。约克大学和多伦多大学的博士后研究员阿米尔·罗森菲尔德认为,我们对网络应如何工作的预期与实际表现之间仍然存在巨大差异。

目前的深度学习方法可以通过将局部特征(如纹理)整合到全局形式(如形状)中来改善。克里格斯科特指出,尽管架构允许这样做,但如果只训练它对标准图像进行分类,它不会自动提高。

Geirhos尝试通过强制模型忽略纹理来观察会发生什么。他拍摄了传统上用于训练分类算法的图像,并以不同的风格“绘制”它们,从而剥离了有用的纹理信息。当他们根据新的图像重新训练每个深度学习模型时,系统开始依赖更大的、更全局的形状,并表现出更像人类的形状偏见。

图宾根大学的计算神经学家维兰德·布伦德尔发现,神经网络将图像视为“特征包”,并依赖于令人惊讶的肤浅信息对图像对象进行分类。当这种情况发生时,算法在处理噪声图像时也变得更加高效,即使它们未经过处理这种失真的训练。

这表明基于形状的网络变得更加强大。Geirhos认为,拥有正确的偏见,如形状偏见,在特定情况下有助于推广到新的环境。这还暗示人类可能天生具有这种偏见,因为形状是一种更有力的方式来定义我们所看到的东西,即使在新颖或嘈杂的情况下也是如此。人类生活在三维世界中,可以从多个角度观察物体,并利用触觉等其他感官来辅助识别。

这项研究揭示了数据产生的偏见和影响比我们想象的要大。尽管之前已经遇到过类似的问题,如面部识别程序和自动招聘算法,但消除这些不必要的偏见仍然具有挑战性。然而,新的研究表明这是可行的,这令人鼓舞。

即使Geirhos的模型专注于形状,它们仍然可能被过多的噪声或特定的像素变化击败,这表明它们距离达到人类水平的视觉仍有很长的路要走。机器学习算法无法像人类一样感知不同图像之间的相似性。尽管如此,克里格斯科特认为,这样的研究有助于我们更好地理解人类大脑的重要机制,可能有助于克服当前的局限。

    本文来源:图灵汇
责任编辑: : 舒尚娥
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
人工智能纹理辨认偏爱轮廓迷信给出图像解释不是
    下一篇