深度学习留意力机制总结
作者头像
  • 罗红姿
  • 2019-12-01 07:42:05 4

什么是Attention机制?

近年来,注意力模型(Attention Model)被广泛应用于自然语言处理、图像识别和语音识别等多种深度学习任务中,成为深度学习领域的重要技术之一。

当我们观察事物时,注意力通常集中在特定位置,这表明在观察某一目标或场景时,每个位置的注意力分布是不同的。例如,某些显眼的场景会首先吸引我们的注意力,而在阅读文本时,我们会根据目标或任务来关注特定的部分。因此,注意力模型需要与具体任务相结合。

从功能角度来看,注意力机制可以分为两类:空间注意力(Spatial Attention)和时间注意力(Temporal Attention)。根据实际应用,注意力模型还可以分为软注意力(Soft Attention)和硬注意力(Hard Attention)。软注意力会对所有数据进行计算,并赋予相应的权重,而硬注意力则会筛选出符合条件的数据,排除不符合条件的数据。

编码-解码框架:Encoder-Decoder框架

目前大多数文献中的注意力模型都是基于Encoder-Decoder框架的。尽管如此,注意力模型本身并不依赖于特定的框架,这一点需要注意。Encoder-Decoder框架是一种处理文本问题的有效方式,具有广泛的应用场景。

简而言之,Encoder-Decoder框架可以看作是从一个句子生成另一个句子的通用模型。对于输入句子X,通过Encoder将其转化为中间语义表示C,Decoder根据C和已生成的历史信息生成目标句子Y。这个过程类似于序列到序列模型(seq2seq),具有一定的顺序依赖性。

Encoder和Decoder的具体实现可以灵活多变,常见的模型包括CNN、RNN、BiRNN、GRU、LSTM等。

Attention模型

传统的Encoder-Decoder模型缺乏注意力机制,这使得其在生成目标句子时,每个单词的生成过程都使用相同的中间语义表示C,导致每个单词的生成效果相同。引入注意力模型可以解决这个问题。

以翻译为例,输入句子"Tom chase Jerry",目标句子应该是"汤姆追逐杰瑞"。在生成"杰瑞"时,注意力模型会考虑不同英文单词对生成当前中文单词的影响程度。例如,注意力分配模型可能会给出以下概率分布:(Tom,0.3),(Chase,0.2),(Jerry,0.5)。这表明在翻译"杰瑞"时,"Jerry"的影响力最大。

通过注意力模型,生成每个单词时的中间语义表示C会根据当前单词的不同而变化。这样,每个单词的生成都基于不同的注意力权重分布。

注意力分配概率的计算过程

对于采用RNN的Decoder,生成单词yi时,可以通过隐层节点Hi与输入句子中每个单词的隐层节点hj进行对比,从而计算出每个单词的注意力分配概率分布。这个过程通常通过Softmax函数归一化,得到最终的概率分布值。

注意力分配概率分布的计算过程大致如下:

  1. 隐层节点对比:通过函数F(hj, Hi)计算每个输入单词与当前生成单词的对齐可能性。
  2. 归一化处理:使用Softmax函数将原始分值归一化为概率分布。
  3. 加权求和:根据归一化后的概率分布计算最终的注意力值。

这种计算框架被称为软注意力模型,适用于多种应用场景,例如机器翻译。

注意力机制的本质思想

注意力机制可以从更抽象的角度理解。假设Source中的元素由一系列数据对构成,给定Target中的某个元素Query,通过计算Query与各个Key的相似性或相关性,得到每个Key对应的Value的权重系数,然后对Value进行加权求和,即得到最终的注意力值。

从概念上看,注意力机制可以理解为从大量信息中选择出重要信息并聚焦于这些信息上,忽略不重要的信息。这种机制在权重系数的计算中体现出来,权重越大,越聚焦于相应的Value值。

自注意力模型(Self Attention)

自注意力模型,也称为内部注意力(intra Attention),近年来在各种任务中得到广泛应用,特别是在机器翻译中。自注意力机制不同于传统的注意力机制,它处理的是同一序列内的元素之间关系,而不是不同序列间的元素关系。

自注意力模型可以捕获句子内部的句法特征或语义特征,尤其有助于捕捉长距离依赖关系。与RNN或LSTM相比,自注意力模型可以直接计算任意两个单词之间的联系,减少了信息传递的距离,提高了计算效率。

注意力机制的应用

注意力机制在多种应用场景中都有广泛的应用。例如,在图像描述任务中,注意力机制可以帮助模型聚焦于图片中与当前生成单词相关的部分,从而生成更准确的描述。在语音识别中,注意力机制可以将语音信号与文本字符进行对齐,提高识别准确性。

综上所述,注意力机制在深度学习中发挥着重要作用,特别是在处理复杂序列数据时,其优越的性能使其成为许多应用的首选方案。

    本文来源:图灵汇
责任编辑: : 罗红姿
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
留意深度机制总结学习
    下一篇