SiameseFC

2021-04-25 14:38:56 浏览:554

定义

SiamesFC全称为Fully-Convolutional Siamese Networks[1],使用孪生网络(Siamese Net)结构来进行相似度比较,对比模版图片(在训练前应该指定好)和需比较的目标图片之间的相似度,从而实现目标追踪,具有显著的速度优势。

网络结构

 

图 1 SiameseFC结构图

SiameseFC受到双神经网络(Siamese Neural Network)[2]的启发,通过目标框区域与候选框区域的相似性比较实现目标追踪。具体而言,其通过逐点平移匹配模板并并进行卷积计算相似度,并在卷积结果中找到相似度值最大的点作为新的目标的中心。

网络结构如上图所示,图中z代表的是模板图像,算法中使用的是第一帧的人工选择框;x代表的是搜索区域,大小为255×255×3,代表在后面的待跟踪帧中的候选框搜索区域;ϕ代表的是一种特征映射操作,将原始图像映射到特定的特征空间,在SiameseFC中,其对应的是CNN中的卷积层和池化层;6×6×128是代表z经过ϕ特征抽象后得到的特征向量维度,是一个包含128通道6×6大小的特征,同理,22×22×128是x经过ϕ特征抽象后得到的特征向量维度,之后,对两个特征向量进行相似度比较,SiameseFC中采用卷积操作,*代表卷积操作,将6×6×128大小的模板图像特征向量作为卷积核,卷积22×22×128大小的候选框特征向量,得到一个17×17×1的score map,即相似度图,代表着搜索区域中各个位置与模板相似度值,红色点对应的是x中的红色框区域特征与模板特征卷积的相似度值,蓝色点对应的是x中蓝色框区域特征与特征卷积的相似度值。通过把相似度图插值成为225×225的大小,极大值坐标即为搜索区域中目标候选框的中心。

在[1]中,ϕ对应的参数和维度在表1中给出。最大池化层在前两个卷积层之后使用。除了最后一层卷积层,其余卷积层中都在卷积后进行ReLU非线性操作。

 

表 1 ϕ对应的全连接网络结构

网络训练

训练时损失函数的设计如下:

 

其中,v为相似度矩阵(score map)的取值,y为标签,对搜索区域的位置点进行了正负样本的区分,目标区域(图1红框区域),定义为正样本,其余样本定义为负样本。

总体损失函数为:

 

u代表Score map中的某个位置,v[u]代表score map在此位置的相似度值。

性能评价

速度是这个网络的最大优势,但由于要与模版图片对比,因此如果在追踪过程中,物体突然发生一些变换(比如正面到侧面等),或有较多相似性物体,会导致较差的追踪效果。

参考文献

[1] Bertinetto L , Valmadre J , Henriques J F , et al. Fully-convolutional siamese networks for object tracking[J]. 2016.
[2] S. Chopra, R. Hadsell, Y. LeCun. Learning a similarity metric discriminatively, with application to face verification[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005.

目标跟踪

作          者: 泮桥成像光电商城

出          处: https://www.ipanqiao.com/entry/729

版          权:本文版权归泮桥成像光电商城所有

免责声明:本文中使用的部分文字内容与图片来自于网络,如有侵权,请联系作者进行删除。

转          载:欢迎转载,但必须保留上述声明;必须在文章中给出原文链接;否则必究法律责任。

Copyright © 2019-2022 南京超维景生物科技有限公司 版权所有 www.ipanqiao.com苏ICP备20009590号-1
联系我们
立即做合同
微信客服
电话咨询

400-998-9826

17302548620

快速留言

泮桥成像光电商城专业人员会在24小时之内联系您

关闭 提交