​2021年机器学习什么风向?谷歌大神Quoc Le:把留意力放在MLP上
作者头像
  • 李蓝奇
  • 2021-06-03 19:42:18 3

引言

在机器学习领域,有一句广为流传的话:“注意力是你所需要的”。通过注意力机制,谷歌提出的Transformer模型引领了自然语言处理(NLP)领域的重大进步,并逐渐影响到计算机视觉(CV)领域。甚至,这句话本身也成为了后来研究者们不断引用和讨论的话题。

多层感知机(MLP)的兴起

然而,技术潮流总是在变化。2021年,多层感知机(MLP)似乎成为了新的趋势。谷歌大脑的Quoc Le等人提出了一种无注意力网络架构gMLP,这种架构使用空间门控单元,实现了与Transformer模型相当的功能表现。与此同时,清华大学的图形学实验室Jittor团队和软件学院丁贵广团队也分别提出了不同的注意力机制和改进的MLP模型,同样取得了显著成果。

图像分类任务

最近一段时间,MLP成为了计算机视觉领域的重点研究对象。谷歌原ViT团队提出了一种名为MLP-Mixer的架构,该架构摒弃了卷积和注意力机制,仅使用线性层和GELU激活函数,却在ImageNet数据集上取得了与CNN和ViT相当的表现。Facebook也提出了一种类似的纯MLP架构,进一步简化了模型设计。

gMLP模型

Quoc Le团队的最新研究成果展示了gMLP模型在图像分类和掩码语言建模任务中的优异性能。在相同的训练设置下,gMLP在ImageNet数据集上的准确率与DeiT(一种改进了正则化的ViT模型)相当,而在参数减少的情况下,其准确率甚至超过了MLP-Mixer。此外,gMLP在掩码语言建模任务中的表现也与Transformer模型相当,证明了其在大规模数据和计算资源下的强大潜力。

空间门控单元(SGU)

gMLP的核心在于其空间门控单元(SGU),这是一种用于捕捉空间交互的层。通过SGU,gMLP可以在不依赖注意力机制的情况下实现跨token的交互。研究者通过一系列实验表明,gMLP不仅在图像分类任务上表现出色,而且在掩码语言建模任务中也具有竞争力。

结论

总的来说,这项研究表明,注意力机制并不是扩展机器学习模型的必要条件。随着数据和计算资源的增加,具有简单空间交互机制的模型如gMLP,可以达到与Transformer模型相同的效果,甚至在某些情况下表现更好。

模型方法

gMLP架构由多个堆叠的L块组成,每个块包含一个空间门控单元(SGU)。SGU的设计灵感来源于反转瓶颈结构,通过空间深度卷积来捕获token间的复杂空间交互。gMLP模型不需要位置嵌入,因为这些信息可以通过SGU捕获。

图像分类任务

研究者在ImageNet数据集上测试了gMLP模型,将其与其他基于Transformer的模型进行了对比,包括ViT、DeiT以及一些卷积网络模型。结果表明,gMLP模型在图像分类任务上具有与Transformer模型相当的数据效率,且在参数减少的情况下依然能保持较高的准确率。

掩码语言建模任务

在掩码语言建模任务中,gMLP模型同样展示了其强大的能力。通过与BERT模型的对比,研究者发现gMLP在预训练阶段的困惑度表现与Transformer模型相当,且随着模型容量的增加,其表现提升速度与Transformer模型一致。

网友质疑

对于gMLP模型,一些网友提出了质疑,认为其整体架构更类似于Transformer而非原始的MLP。然而,研究者指出,gMLP的核心在于其独特的空间门控单元(SGU),而不是传统的注意力机制。尽管如此,这些讨论也为未来的研究提供了新的视角。

编辑:黄继彦

以上便是关于gMLP模型及其在图像分类和掩码语言建模任务中的应用的详细解读。希望对你有所帮助。

    本文来源:图灵汇
责任编辑: : 李蓝奇
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
大神风向留意放在机器学习什么谷歌Quoc2021
    下一篇