注意力机制,近年来在深度学习领域受到了广泛的关注,在图像识别、自然语言处理、语音分析等许多问题中都能够看到注意力机制的身影。
神经网络中的注意力机制用于在计算能力有限时,将计算资源分配给更重要的任务,同时解决信息过载问题的资源分配方案。在神经网络学习中,一般来说,一个模型的参数越多,其表现力越强,存储的信息越多然而,这就引入了信息过载的问题。那么,通过引入注意力机制,在众多输入中关注对当前任务更关键的信息,减少对其他信息的关注,甚至过滤掉不相关的信息,可以解决信息过载问题,提高任务处理的效率和准确性 。
这与人类的视觉注意力机制类似,是人类视觉特有的一种大脑信号处理机制。人类视觉通过快速扫描全局图像,获得一个需要关注的目标区域,俗称关注焦点.然后将更多的注意力资源投入到这个区域,以获得需要关注的目标的更多细节信息,同时抑制其他无用信息。
注意力机制的模型构建主要分为以下三种:
- 空间注意力模型
- 通道注意力模型
- 空间和通道混合注意力模型
其应用场景主要分为两类:
- 细粒度分类问题
- 目标检测
参考文献
[1] https://buomsoo-kim.github.io/attention/2020/01/01/Attention-mechanism-1.md/