图像识别泛化能力人机对比：CNN比人类还差得远

2022-06-13 17:12:59 12

我们通过12种不同的图像劣化方法，对比了人类与当前流行的卷积式深度神经网络（DNN）在目标识别上的稳健性。研究结果表明，无论图像如何处理，人类视觉系统在大多数情况下都比DNN更为稳健。尤其在信号较弱的情况下，人类与DNN的分类误差模式差异变得更加明显。

首先，我们考察了三种著名的DNN模型：ResNet-152、VGG-19和GoogLeNet。实验结果表明，人类视觉系统在面对各种图像劣化时，表现普遍优于这些DNN模型。例如，在均匀噪声和相位噪声等情况下，人类的表现显著优于DNN。此外，我们还注意到，当信号逐渐减弱时，人类与DNN之间的分类误差模式差异逐渐加大。

其次，我们发现直接在畸变图像上训练的DNN在特定畸变类型上表现更好，但在其他畸变类型上却表现出较差的泛化能力。例如，在椒盐噪声上训练的模型无法很好地应对均匀噪声，反之亦然。这表明，DNN在处理未知畸变类型时面临较大的挑战。为了进一步验证这一点，我们尝试了在多种畸变类型上进行训练，但结果表明，仅靠数据增强并不足以提高DNN的泛化能力。

为了更全面地了解这一现象，我们设计了一系列实验，详细记录了人类参与者的心理物理学数据。这些数据包括了82880次实验，涵盖多种畸变类型和信号强度。通过这些实验，我们不仅验证了人类在目标识别上的优越性，还发现人类视觉系统在面对未知畸变时，仍能保持较高的识别准确度。

总结来说，这项研究揭示了人类视觉系统在目标识别上的稳健性优势，同时也指出了当前DNN模型在处理未知畸变时存在的局限性。未来的研究需要探讨如何改进DNN的泛化能力，以使其更好地模拟人类视觉系统。我们希望这些发现能为未来的DNN稳健性提升提供有价值的参考，并激发更多关于人类视觉机制的研究。

附注：