SiamMask

2021-04-25 16:54:45 浏览:497

SiamMask是2019年Qiang Wang在CVPR上提出的目标追踪及图像分割网络,提出了对视觉目标跟踪和视频目标分割的统一框架SiamMask,实质为SiamesePRN的基础上增加了一个新的掩膜生成分支。

SiamMask网络结构

 

图 1 SiamMask网络结构示意图[1]

网络的前半部分是典型的孪生神经网络操作,即分别提取模板图像和搜索图像局部图像块的特征,并计算相似度,得到了一个所谓的RoW矩阵,这个矩阵每一个1*1*256大小的向量表示的其实都是模板图像和搜索图像中每个对应图像块的相似度信息。输出共包括三个,其中输出的两个分支和SiameseRPN一样的,及相似度评分和矩形框回归。第三个分支是SiamMask的创新,即对应每个图像块生成目标分割掩膜的预测。为了实现高效的计算,这里是将RoW矩阵通过卷积升维来实现高效运行。实际上完全可以基于此分支生成的掩膜来得到分割框,例如计算分割目标边缘的最大外接矩形框等,从而整个网络结构可以简化为两个分支。

怎么由1*1*(63*63)维度的输出的特征得到实际的分割掩膜呢?实践证明直接预测的掩膜分支的精度并不太高。因为随着卷积网络层数的加深,原始的图像特征被逐级抽象,从图像分割意义上来说,较低层捕获丰富的空间信息,而较高层编码对象级知识。如果较低层提取的空间信息,只关注高层的对象级知识,很难取得好的结果。因此,如果想要获得精确的分割结果,我们既要利用抽象的高层编码,也要利用低层的空间信息,这个其实就是SharpMask图像分割网络的简略的思想,因此在得到最终掩膜的过程中,网络借鉴了SharpMask的思想[2]。整个结构可以理解为一个逆卷积过程,用以克服池化操作带来的维度降低,通过融合前馈网络中既有的低层特征实现这一点,关键的模块是refinement模块,对应实质为逆池化和卷积的操作,对应的,在前馈网络中有几个池化操作就对应几次迭代,这样的话就可以保证掩膜维度和图像块维度的一致性的,最后进行简单的像素二分类操作,就可以实现目标和背景的区分。

SiamMask网络分割及追踪评价

因为这是一个双任务的网络,在评价上分别从分割和追踪效果上分别评价。

第一,在分割结果的度量上,度量指标定义为计算金标准矩形框和实际矩形框的平均重叠比例,即雅卡尔系数,计算方法为:将金标准矩形框和实际矩形框两个区域重叠的部分除以两个区域的集合部分。

第二,追踪效果准确度、鲁棒性及EAO指标评价。准确度借用了雅卡尔系数进行定义,在做测试的时候会在一个序列上重复跑多次,计算每一帧平均的雅卡尔系数,然后计算平均。鲁棒性指单个测试序列下的跟踪器失败次数,用来评价跟踪目标的稳定性,数值越大,稳定性越差。

参考文献

[1] Wang Q, Zhang L, Bertinetto L, et al. Fast online object tracking and segmentation: A unifying approach[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 1328-1338.
[2] Pinheiro P O, Lin T Y, Collobert R, et al. Learning to refine object segments[C]//European conference on computer vision. Springer, Cham, 2016: 75-91.

参阅:SiameseRPN、雅卡尔系数、EAO

目标跟踪

作          者: 泮桥成像光电商城

出          处: https://www.ipanqiao.com/entry/732

版          权:本文版权归泮桥成像光电商城所有

免责声明:本文中使用的部分文字内容与图片来自于网络,如有侵权,请联系作者进行删除。

转          载:欢迎转载,但必须保留上述声明;必须在文章中给出原文链接;否则必究法律责任。

Copyright © 2019-2022 南京超维景生物科技有限公司 版权所有 www.ipanqiao.com苏ICP备20009590号-1
联系我们
立即做合同
微信客服
电话咨询

400-998-9826

17302548620

快速留言

泮桥成像光电商城专业人员会在24小时之内联系您

关闭 提交