软注意力机制与硬注意力机制
全局和局部注意力机制
分层注意力机制
层次注意力机制
自顶向下注意力机制
多步注意力机制
多头注意力机制
多维自注意力机制
方向型自注意力机制
双向分块自注意力机制
强化学习自注意力机制
结构化自注意力机制
对于神经网络,注意块可以根据不同的重要性选择性地改变输入或为输入变量分配不同的权重。近年来,大多数将深度学习与视觉注意机制相结合的研究都集中于使用面具来形成注意机制。掩模的原理是设计一个新的层,通过训练和学习来识别图像的关键特征,然后让网络只关注图像的有趣区域。
注意力机制
硬注意力 Hard Attention 和 软注意力 Soft Attention
硬注意力是一次选择一个图像的一个区域作为注意力,设成1,其他设为0。它是不能微分的,无法进行标准的反向传播,因此需要蒙特卡洛采样来计算各个反向传播阶段的精度。 考虑到精度取决于采样的完成程度,因此需要其他技术(例如强化学习)。
软注意力是加权图像的每个像素。 高相关性区域乘以较大的权重,而低相关性区域标记为较小的权重。权重范围是(0-1)。它是可微的,可以正常进行反向传播。
局部空间注意力
空间注意力块旨在计算空间域中每个像素的特征重要性,并提取图像的关键信息。
Jaderberg等人早期提出了一种用于图像分类的空间变换器网络(STNet),该网络利用空间注意力将原始图像的空间信息变换到另一个空间并保留关键信息。正常池相当于容易导致关键信息丢失的信息合并。针对这个问题,设计了一个称为空间变换器的块,通过执行空间变换来提取图像的关键信息。受此启发,Oktay等人提出[[Attention U-Net]]。改进的U-Net在融合来自编码器和相应解码器的特征之前使用关注块来改变编码器的输出。关注块输出门控信号以控制不同空间位置处的像素的特征重要性。图9显示了体系结构。该块通过1×1卷积组合Relu和sigmoid函数,以生成通过乘以编码器的特征来校正的权重图。
通道注意力
代表:[[SE Net]](2017)、ECANet(CVPR2020)
通道注意块可以实现特征重新校准,它利用学习到的全局信息来强调选择性有用的特征并抑制无用的特征。Hu等人提出了[[SE Net]],将渠道注意力引入图像分析领域,并在2017年赢得了ImageNet挑战赛。该方法使用三个步骤对频道进行注意力加权;下图显示了该架构。
首先是 Squeeze 操作,我们顺着空间维度来进行特征压缩,全局平均池化以获得 1×1×通道数C 的特征图,把每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。
其次是 Excitation 操作,它是一个类似于循环神经网络中门的机制。通过参数 W 来为每个特征通道生成权重,其中参数 W 被学习用来显式地建模特征通道间的相关性。信道特征相互作用以减少信道数量,然后将减少的信道特征重构回信道数量。
最后是一个 Reweight 的操作,F_scale用于在挤压和激发(SE)块中模拟通道之间的相互依赖关系。函数F_scale用于SE块的激励操作,它学习了一组通道权重,应用于特征图,根据其重要性放大或压制某些通道。我们将 Excitation 的输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。使用sigmoid函数生成[0,1]的特征权重图,该图将比例乘以原始输入特征。