SiameseRPN是2018年Li Bo于CVPR上提出的目标追踪网络,是Siamese FC和RPN的结合,其融合了RPN网络来进行矩形框生成,结合了SiameseFC网络进行快速目标匹配追踪,实现了高帧率的目标追踪[1]。
SiameseRPN的网络结构
图 1 SiameseRPN网络结构示意图示意图[1]
2018年提出的SiameseRPN是Siamese FC和RPN的结合。图1左侧是用于提取特征的孪生网络;图1中间是是RPN结构,包含分类分支和回归分支以及对应两个分支的成对相关部分。在RPN的分类分支中,模板图像和检测图像的特征图都将首先通过一个卷积层,该卷积层主要是对模板图像的特征图进行通道上的升维,令其维度变为检测图像特征图维度的2k倍,得到。此后,将模板图像的特征图像
在通道上按序等分为2k份,作为2k个卷积核,在检测图像的特征图
中完成卷积操作,得到一个维度为2k的评分图(Score map),也就是
。
该评分图(Score map)同样在通道上按序等分为k份,得到对应k个矩形框的维度为2的评分图(Score map),两个维度分别对应矩形框中前景(目标)和后景(背景)的分类分数。通过softmax损失来定义此分支的损失函数。
同样的,在RPN的回归分支中,卷积操作后得到一个维度为4k的评分图(Score map),即。该评分图(Score map)同样在通道上按序等分为k份,得到对应k框的维度为4的评分图(Score map),四个维度分别对应矩形框的坐标及尺寸,损失函数通过smooth L1 函数定义:
Ax, Ay, Aw, Ah是锚点处框的中心点坐标和长宽; Tx, Ty, Tw, Th 是人为标定的矩形框,因为不同图片之间的尺寸存在差异,这里类似于归一化的操作[2]。
SiameseRPN追踪
1、预训练模版分支
利用第一帧的目标特征输出一系列权重,并作为RPN网络的参数去检测目标。这样做的好处是:实现目标特征的抽象化,提高追踪的鲁棒性。
图 2 预训练模板分支示意图[1]
2、候选框筛选及尺度变化惩罚
图 3 7*7邻域筛选示意图[1]
分类特征图和回归特征图的维度是17*17,每个点都对应在检测帧中以该点为中心的k个矩形框。有理由相信相邻两帧之间的运动在帧率足够的情况下不会超出中心位置太远,所以只保留中心点7*7邻域范围内点对应的矩形框(图3)。
余弦窗和尺度变换权重由下式得到:
其中,r'为候选框的长宽比;r为上一帧候选框的长宽比;w,h为目标框的长,p代表填充的像素数目(padding)。
经过余弦窗和尺度变化惩罚,得到度量的是当前帧的候选框相较之前帧的目标框的大小以及面积的变化程度的权重,用此权重对分类的相似性度量值进行加权,得到加权后的分数,从中选出分数最高的对应的框,即作为最终网络预测的目标位置,这样的话可以保持选框大小不要变化过大,这也是因为一般情况下前后两帧目标的大小变化一般不会特别大。
SiameseRPN追踪性能评价
图 4 不同追踪网络的EAO指标排名
Siamese RPN可以在速度极高的情况下保持性能的领先,在速度和精度上都领先于第二名(图4)。在VOT2017实时准确率上排名第一,做到了真正实时的追踪(160+ fps)。
参考文献
[1] Li B , Yan J , Wu W , et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018.
[2] Fan H, Ling H. Siamese cascaded region proposal networks for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 7952-7961.
参阅:RPN、SiameseFC、EAO