近日,我院陈颖频副教授在视频目标跟踪研究领域取得重要进展,该成果以“Selective cyclic-shifted window-based accelerated Transformer network for object tracking”为题发表于国际权威期刊《Digital Signal Processing》(中科院3区,JCR Q2区期刊,IF=3.0)。
视频目标跟踪旨在给定视频第一帧感兴趣区域的前提下,推理后续帧中目标的位置和大小。该技术已广泛应用于军事目标跟踪、虚拟现实、智能交通管理等,为计算机视觉的下游任务提供高质量的数据来源。
尽管各类目标跟踪方法层出不穷,但开发能精准估计目标状态且不产生保持实时性的神经网络仍面临挑战。近年来,Transformer网络因其令人满意的长程建模能力受到跟踪领域学者的广泛关注。然而,现有的Transformer网络存在两个局限:第一,Transformer网络以像素为单元计算图像特征的注意力,破坏了目标的语义信息且未能较好地挖掘目标的位置信息;第二,Transformer网络平等地对待来自目标与背景的Token,导致其对目标与背景的判别能力有限。为解决上述问题,本文提出一种基于选择循环移位窗口注意力的加速跟踪网络。网络主要框架如图1所示,主要包括一个编码器、一个解码器以及一个分类头网络。
 
 
图1. 提出网络示意图
图2详细展示了图1中编码器的结构,具体包括空域编码器(图2(a)中绿色背景框)和频域编码器(如图2(b)所示)。
 
| 
 | 
| (a) | 
|  
 | 
| (b) | 
图2 基于循环移位窗口注意力机制的编码器结构图. (a) 编码器整体结构 (b)频域编码注意力结构图.
图3展示了选择性消除(Selective Eliminate,SE)模块的主要原理。通过该模块可有效去除搜索区域中的干扰信息,进一步提高跟踪网络中目标与背景的判别能力。
图3 SE模块图. (a)标准的自注意力计算; (b) 带选择性消除模块的自注意力计算; (c) 标准的softmax计算; (d) 带选择性消除模块的softmax计算. 图4展示了编码器的主要结构。通过该模块的多头自注意力(MSA)块与多头交叉注意力(MCA)块完成对查询(Query)嵌入的学习,进而再通过图5的角点检查头确定目标的状态。最后,将学习到的查询嵌入馈送到分数头,如图1所示,一旦分数头的输出超过阈值,则更新动态模板,否则不更新。
综上所述,本文主要创新点有如下几点:
1. 以移位多尺度窗口注意力代替单尺度像素级注意力:通过这一创新举措有效缓解了因单尺度注意力引起的目标语义破坏问题以及位置信息挖掘不足问题。
2. 空间频域编码的有机结合:对于低分辨率的窗口仍采用空域编码器,而对于高分辨率的多尺度窗口则引入快速傅里叶变换提高推理速度,实现效率与精度的平衡;
3. 无效信息的选择性消除:我们利用SE模块对注意力矩阵分数加以选择,对于低于阈值的注意力分数采取直接清零的策略,以此消除干扰物对目标跟踪的负面影响,进一步提高了跟踪网络的判别能力;
4. 动态模板的选择性生成机制:利用一个简单的分数头对解码器输出加以判定,一旦分数低于阈值,则不对动态模板做更新操作,以此避免因遮挡引起的模板污染问题。

图4 解码器结构图
图5 边界框预测头结构图
实验结果表明,提出网络在众多视频目标跟踪方法中取得了先进性能。如表1所示。图6展示提出方法在UAV123的评价结果,从图中可以看到,提出方法在精度和成功率指标均超过对比算法。
 
表1 LaSOT、GOT-10k、TrackingNet和UAV123数据集详细对比.最好的三个结果以红色、绿色和蓝色字体显示(表中的SCWATT-101表示以ResNet-101提取特征的本文方法)
| ![]() Method
 | Year | LaSOT | GOT-10k | Trackingnet | UAV123 | 
| AUC(%) | PNorm(%) | P(%) | AO(%) | SR0.5(%) | SR0.75(%) | AUC(%) | PNorm(%) | P(%) | AUC(%) | P(%) | 
| SiamFC[6] | 2016 | 33.6 | 42.0 | 33.9 | 34.8 | 35.3 | 9.8 | 57.1 | 66.3 | 53.3 | 49.2 | 72.7 | 
| MDNet[65] | 2016 | 39.7 | 46.0 | 37.3 | 29.3 | 30.3 | 9.9 | 60.6 | 70.5 | 56.5 | 52.8 | - | 
| ECO[66] | 2017 | 32.4 | 33.8 | 30.1 | 31.6 | 30.9 | 11.1 | 55.4 | 61.8 | 49.2 | 52.5 | 74.1 | 
| ATOM[64] | 2019 | 51.5 | 57.6 | 50.5 | 55.6 | 63.4 | 40.2 | 70.3 | 77.1 | 64.8 | 61.7 | 82.7 | 
| SiamRPN++[34] | 2019 | 49.6 | 56.9 | 49.1 | 51.7 | 61.6 | 32.5 | 73.3 | 80.0 | 69.4 | 64.2 | 84.0 | 
| DiMP[63] | 2019 | 57.7 | 66.4 | 57.9 | 61.1 | 71.7 | 49.2 | 74.0 | 80.1 | 68.7 | 64.2 | 84.9 | 
| SiamCAR[36] | 2020 | 50.7 | 60.0 | 51.0 | 56.9 | 67.0 | 41.5 | - | - | - | - | - | 
| D3S[67] | 2020 | - | - | - | 59.7 | 67.6 | 46.2 | 72.8 | 76.8 | 66.4 | - | - | 
| SiamFC++[8] | 2020 | 54.4 | 62.3 | 54.7 | 59.5 | 69.5 | 47.9 | 75.4 | 80.0 | 70.5 | 61.8 | 80.4 | 
| SiamAttn[11] | 2020 | 56.0 | 64.8 | - | - | - | - | 75.2 | 81.7 | - | 65.0 | 84.5 | 
| MAML[68] | 2020 | 52.3 | - | 53.1 | - | - | - | 75.7 | 82.2 | 72.5 | - | - | 
| PrDiMP50[69] | 2020 | 59.9 | 68.8 | 60.8 | 63.4 | 73.8 | 54.3 | 75.8 | 81.6 | 70.4 | 66.6 | 87.2 | 
| KYS[70] | 2020 | 55.4 | 63.3 | 55.8 | 63.6 | 75.1 | 51.5 | 74.0 | 80.0 | 68.8 | - | - | 
| Ocean[10] | 2020 | 51.6 | 60.7 | 52.6 | 61.1 | 72.1 | 47.3 | 69.2 | 79.4 | 68.7 | 62.1 | 82.3 | 
| TrDiMP[71] | 2021 | 64.0 | 73.2 | 66.6 | 67.1 | 77.7 | 58.3 | 78.4 | 83.3 | 73.1 | 67.0 | 87.6 | 
| TransT[18] | 2021 | 64.2 | 73.5 | 68.2 | 67.1 | 76.8 | 60.9 | 81.4 | 86.7 | 80.3 | 66.0 | 85.2 | 
| STARK-ST50[23] | 2021 | 65.8 | 75.2 | 69.8 | 67.2 | 76.1 | 61.2 | 80.2 | 85.0 | 77.6 | 68.6 | 89.2 | 
| CSWinTT[16] | 2022 | 65.5 | 74.5 | 70.0 | 68.2 | 77.3 | 63.9 | 80.3 | 84.8 | 77.5 | 68.2 | 87.5 | 
| CCF[72] | 2024 | - | - | - | - | - | - | - | - | - | 48.8 | 70.3 | 
| STFF[73] | 2024 | - | - | - | - | - | - | - | - | - | 61.9 | 82.1 | 
| LGFF[29] | 2024 | 57.5 | 65.0 | 58.9 | 68.9 | 79.0 | 62.3 | 78.6 | 83.3 | 75.2 | 63.2 | - | 
| STSDL[74] | 2024 | 64.0 | 72.4 | 66.2 | 68.5 | 80.0 | 59.5 | 78.0 | 83.0 | 78.0 | 68.0 | 90.0 | 
| MT-Track[75] | 2024 | 56.9 | 57.4 | 66.3 | - | - | - | - | - | - | 62.0 | 79.4 | 
| ATOM+[76] | 2024 | 56.2 | 57.0 | 63.8 | - | - | - | - | - | - | - | - | 
| PromptVT[77] | 2024 | 63.7 | 73.8 | 66.8 | 68.2 | 79.3 | 61.8 | 78.0 | 83.5 | 74.4 | 67.1 | 88.5 | 
| SRRT[78] | 2024 | 68.0 | 76.9 | 72.4 | 67.7 | 77.1 | 61.5 | 82.1 | 87.2 | 80.4 | 71.1 | 88.5 | 
| AGST-BR[79] | 2024 | 56.7 | - | 58.3 | 69.5 | 80.2 | 62.3 | 78.9 | 84.0 | 75.7 | 66.3 | - | 
| SCWATT | Ours | 66.1 | 75.2 | 71.0 | 70.4 | 80.0 | 67.0 | 81.8 | 86.4 | 79.4 | 70.2 | 89.8 | 
| SCWATT-101 | Ours | 67.9 | 77.4 | 73.5 | 70.8 | 80.7 | 67.4 | 82.5 | 87.2 | 80.7 | 70.4 | 90.1 | 
 
|  
 |  
 | 
| (a) | (b) | 
图6 UAV123数据集上SCWATT与其他九个先进跟踪器性能对比图. (a) 成功率图; (b) 精确度图.
闽南师范大学为该工作唯一单位,我院2022级硕士研究生吴昌徽为论文第一作者,我院2021、2022、2023级多名本科生参与本文工作并署名,陈颖频副教授为唯一通讯作者和共同第一作者。研究得到了国家自然科学基金 (62001199),福建省自然科学基金 (2023J01155, 2024J01820, 2024J01821),漳州市自然科学基金 (ZZ2024J40)资助。
论文链接:
https://www.sciencedirect.com/science/article/pii/S1051200425005366
 
(图/文:陈颖频)