定义
一种通过分层提取图像特征的相关滤波运动跟踪算法。
首先简单介绍下算法提出的背景。HCF算法是KCF跟踪算法的一个优化版本,把HOG特征替换为本文所使用的分层卷积特征(Hierarchical Convolutional Features),它们都是相关滤波进行运动跟踪的改进方法。使用的网络框架为VGG-19,在ImageNet上面已经训练好了网络,将当中的conv3-4、conv4-4、conv5-4的输出,而不是最终的输出作为特征提取层,从三个层当中提取的特征分别经过相关滤波器学习得到不同的模板,然后对所得到的三个置信图进行加权融合得到最终的目标位置。
低层特征有较高的分辨率,能够对目标进行精准的定位;而高层特征包含更多的语义信息,能够处理较大的目标变化和防止跟踪器漂移,能够对目标进行范围定位。这是此方法的理论基础。下图是一个分析的示例,想要分析在卷积网络当中对黑白分割线的定位。在conv3中,如红色线所示,该层特征对能够进行精准的定位,由于该层特征有较高的分辨率,而conv5就没有办法对目标进行很好的定位。
此方法的核心思路由下图所示,是使用卷积可视化得到的。在conv3中的特征能够比较清晰的看到目标的轮廓,但是在conv5中已经很难看到细节所在。但是conv5特征包含了较多的语义信息,左半部分有高亮区域,这表明就是目标位置的所在的大概区域范围。因此,在高层特征当中,我们能够根据所提取特征的语义信息,能够很容易的找到目标所在的大概区域范围,然后逐步使用较低层次的特征对目标进行精确定位。在conv5中,得到的区域范围是比较大的,在conv4中逐步缩小范围,进行较为精确的定位,在conv3中继续使用低层更为精确的信息对目标在缩小范围之后的范围进行精确的定位,从而得到最终的目标响应,找到目标的位置所在。
此方法非常类似于图像金字塔,使用全局和局部的不同特征进行运动追踪。文章测试了使用不同的卷积层作为特征的结果,比较单独使用每一层的特征和使用融合卷积特征的结果,发现使用融合卷积特征的效果是最好的。
参考文献
[1] Ma C , Huang J B , Yang X , et al. Hierarchical Convolutional Features for Visual Tracking[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015.
参阅:KCF、图像金字塔、相关滤波