用于大规模图像识别的转换器
作者头像
  • 刘凯悦
  • 2022-06-17 21:25:44 6

虽然卷积神经网络(CNN)自1980年代起就应用于计算机视觉领域,但在2012年,AlexNet以显著优势超越了当时最先进的图像识别方法,CNN才真正成为视觉任务的核心模型。这一突破主要归功于两个因素:一是ImageNet等大规模训练数据集的出现,二是商品化GPU硬件的应用,使得大规模训练成为可能。自此以后,CNN成为了视觉任务的首选模型。

使用CNN的一大优点是其无需手工设计视觉特征,而是直接从数据中学习。不过,尽管避免了手工特征提取,CNN的设计初衷是为了处理图像,这使得其在计算资源方面要求较高。面对下一代视觉模型的需求,人们开始思考是否有必要继续沿用专门针对图像设计的架构,或者能否利用更通用且计算效率更高的架构来实现最佳效果。

作为这一探索的一部分,我们提出了Vision Transformer(ViT),一种基于Transformer架构的视觉模型。ViT将图像分割成一系列图像块,并将其转换为单个向量,类似于Transformer在处理文本时的做法。通过添加可学习的位置嵌入,ViT能够捕捉图像的结构信息。ViT在充足的数据集上训练时表现出色,相比同等计算资源下的先进CNN,其性能提升了四倍。

为了推动相关研究的发展,我们开放了ViT的源代码和模型。我们首先在ImageNet上训练ViT,取得了77.9%的top-1准确率,尽管这一成绩不错,但与最先进的CNN仍有差距。为了进一步研究数据集大小对模型性能的影响,我们在更大规模的数据集(如ImageNet-21k和JFT)上训练ViT,并将其与最先进的CNN进行对比。结果显示,在较小规模的数据集上,ViT的表现不如CNN;但在大规模数据集上,ViT的性能明显优于CNN。

此外,我们还研究了计算量对模型性能的影响。在JFT数据集上,我们训练了多种不同规模的ViT模型和CNN,并观察到在相同的计算资源下,ViT的表现优于CNN。这表明ViT在更大规模的数据集和计算资源下,具有更强的性能和计算效率。

为了验证ViT在更大规模数据集上的表现,我们训练了一个拥有6亿参数的ViT模型。该模型在多个流行基准测试中取得了最先进的性能,包括在ImageNet上的88.55%的top-1准确率和CIFAR-10上的99.50%的准确率。此外,ViT在其他任务上也表现优异,例如在VTAB-1k套件上的表现超过了最先进的技术。

为了更好地理解ViT的工作机制,我们对其内部结构进行了可视化分析。结果显示,ViT能够捕捉图像的结构信息,并在不同层次上学习局部和全局特征,这有助于模型的泛化能力。总体而言,我们的研究表明,专门为图像设计的模型并非必不可少,而更通用的架构如ViT可能在未来取得更好的效果。我们期待ViT能够在多领域任务中发挥更大的作用,并推动视觉模型的进一步发展。

    本文来源:图灵汇
责任编辑: : 刘凯悦
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
转换器大规模图像别的用于
    下一篇