我们通过12种不同的图像劣化方法,对比了人类与当前流行的卷积式深度神经网络(DNN)在目标识别上的稳健性。研究结果表明,无论图像如何处理,人类视觉系统在大多数情况下都比DNN更为稳健。尤其在信号较弱的情况下,人类与DNN的分类误差模式差异变得更加明显。
首先,我们考察了三种著名的DNN模型:ResNet-152、VGG-19和GoogLeNet。实验结果表明,人类视觉系统在面对各种图像劣化时,表现普遍优于这些DNN模型。例如,在均匀噪声和相位噪声等情况下,人类的表现显著优于DNN。此外,我们还注意到,当信号逐渐减弱时,人类与DNN之间的分类误差模式差异逐渐加大。
其次,我们发现直接在畸变图像上训练的DNN在特定畸变类型上表现更好,但在其他畸变类型上却表现出较差的泛化能力。例如,在椒盐噪声上训练的模型无法很好地应对均匀噪声,反之亦然。这表明,DNN在处理未知畸变类型时面临较大的挑战。为了进一步验证这一点,我们尝试了在多种畸变类型上进行训练,但结果表明,仅靠数据增强并不足以提高DNN的泛化能力。
为了更全面地了解这一现象,我们设计了一系列实验,详细记录了人类参与者的心理物理学数据。这些数据包括了82880次实验,涵盖多种畸变类型和信号强度。通过这些实验,我们不仅验证了人类在目标识别上的优越性,还发现人类视觉系统在面对未知畸变时,仍能保持较高的识别准确度。
总结来说,这项研究揭示了人类视觉系统在目标识别上的稳健性优势,同时也指出了当前DNN模型在处理未知畸变时存在的局限性。未来的研究需要探讨如何改进DNN的泛化能力,以使其更好地模拟人类视觉系统。我们希望这些发现能为未来的DNN稳健性提升提供有价值的参考,并激发更多关于人类视觉机制的研究。
附注:
我们希望通过这些实验数据和分析,为深度学习领域的研究者提供新的视角和思路。