跨模态目标跟踪:模态感知表示和统一基准-技术文章-醋醋百科网

axiv 2021 11月论文

论文题目：

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

论文地址：

https://arxiv.org/abs/2111.04264

摘要

在许多视觉系统中，视觉跟踪往往基于RGB图像序列，其中一些目标在弱光条件下是无效的，从而严重影响了跟踪性能，引入其他模式，如深度和红外数据，是解决单个源成像限制的有效方法，但多模式成像平台通常需要精心设计，目前无法应用于许多实际应用，近红外(NIR)成像已成为许多监控摄像机的重要组成部分，近红外成像可根据光强在RGB和NIR之间切换，这两种形态是异质的，具有非常不同的视觉特性，因此给视觉跟踪带来了很大的挑战，然而，现有的研究并没有对这一具有挑战性的问题进行研究，在这项工作中，我们解决了跨模态目标跟踪问题，并贡献了一个新的视频数据集，包括654个跨模态图像序列，总帧数超过481K，平均视频长度超过735帧，为了促进跨模态目标跟踪的研究和发展，我们提出了一种学习模态感知目标表示的新算法，以减小RGB和NIR模态在跟踪过程中的外观差异，它是即插即用的，因此可以灵活地嵌入到不同的跟踪框架中，在数据集上进行了大量的实验，我们在两种代表性的跟踪框架中对17种最先进的跟踪方法演示了所提出算法的有效性。

介绍

视觉跟踪是计算机视觉领域的一个重要问题，在视觉监控、智能交通、机器人等许多视觉系统中起着至关重要的作用，然而，现有的跟踪方法往往基于对光照变化敏感的RGB图像序列，因此在弱光条件下，一些目标是无效的，在这种情况下，现有方法的跟踪性能可能会显著下降。

一些工作引入了其他模式，如深度和红外数据，以克服RGB源的成像限制，然而，多模态成像平台通常需要精心设计，目前还不能在许多实际应用中应用，例如，深度传感器可以提供有价值的额外深度信息，通过鲁棒遮挡和模型漂移处理来改善跟踪结果，但受限于范围(例如，最多4-5米)和室内环境，热传感器通常独立于RGB传感器，它们的视觉特性非常不同，因此，在平台设计和框架对齐方面需要大量的努力。

近红外(NIR)成像成为许多监控摄像机必不可少的部分，其成像可根据光强在RGB和NIR之间切换，如图1(a)所示，这种成像系统很好地处理克服弱光条件下RGB光源的局限性，同时避免现有多模态视觉系统引入的成像和平台问题，从图1(b)我们还可以观察到，这两种模态是异质的，具有非常不同的视觉属性，因此目标对象的外观在不同的模态中是完全不同的，这种外观差距给视觉跟踪带来了很大的挑战，现有的跟踪工作并没有对这一难题进行研究。

在这项工作中，我们解决了跨模态目标跟踪的问题，旨在回答以下两个问题，如何设计一种合适的算法，既能缩小RGB和NIR模态之间的外观差距，又能灵活嵌入到不同的跟踪框架中，实现鲁棒的跨模态目标跟踪?如何创建一个视频基准数据集，以促进跨模态目标跟踪的研究和开发?首先，我们提出了一种模态感知的跨模态目标跟踪算法(MArMOT)，该算法学习模态感知的目标表示，以缩小RGB和NIR模态在跟踪过程中的外观差距。

MArMOT是即插即用的，因此可以灵活嵌入到不同的跟踪框架中，MArMOT包括两个并行的CNN分支，使用不同的训练样本集学习特定于模式的目标表示，另外，我们不知道跟踪过程中出现了哪些模态，因此，我们设计了一个集成模块，以自适应地合并来自两个分支的有效特征，以任何形式作为输入，通过这种方式，RGB和NIR模式之间的外观差距可以很好地解决。

其次，为了建立一个统一的基准数据集，我们收集了654个跨模态目标跟踪序列，视频总帧数达到481K以上，视频平均长度和单序列最大长度均超过735和1.6K帧，该数据集包含了跨模态对象跟踪任务中的大部分现实挑战，最重要的是，它包含了更多的不利环境条件下的挑战，如图1(b)所示，这很容易触发模态切换，并显著降低了视觉跟踪器的能力。

这项工作的主要贡献可以概括如下：

首先，我们引入了一个新的任务，称为跨模态目标跟踪，这是非常具有挑战性的，但在许多视觉系统中是实用的。

其次，我们提出了一种新的算法，以缩小目标对象在不同模态间的外观差异，实现鲁棒跨模态目标跟踪，并将其集成到两个典型的跟踪框架中进行有效性和通用性验证。

第三，我们开发了一种三阶段学习算法，以高效和有效地训练所提出的跟踪网络。

第四，我们创建了一个统一的基准数据集，其中包含跨模式对象跟踪中的大多数现实挑战。

最后，我们进行了一个广泛的实验，以证明所提出的方法对最先进的跟踪器的有效性，并阐明跨模态目标跟踪的研究空间。

MArMOT Trackers

在本节中，我们首先介绍了提出的ModalityAware跨模式对象跟踪模型(MArMOT)，然后介绍了使用MArMOT的跟踪体系结构，包括如何将提出的即插即用的MArMOT嵌入到两个典型的跟踪框架中，最后给出了三阶段学习算法和跟踪细节。

MArMOT Model

在跨模态目标跟踪任务中，由于两种模态是异质的，且具有非常不同的视觉特性，这给视觉跟踪带来了很大的挑战，为了解决这一问题，我们提出了一种新的学习模态感知目标表示的MArMOT，以减小RGB和NIR模态在跟踪过程中的外观差异，注意，MArMOT是即插即用的，因此可以灵活地嵌入到不同的跟踪框架中。

MArMOT包括两个并行的模态感知分支，使用不同的训练样本集学习模态特定的目标表示，另外，我们不知道跟踪过程中出现了哪些情态，因此，我们设计了一个集成模块，以自适应地合并来自两个分支的有效特征，以任何形式作为输入，通过这种方式，可以很好地解决RGB和NIR模式之间的外观差距，如图2所示。

Modality-Aware分支 两个并行的模态感知分支后面是骨干网，用于学习目标在不同模态下的模态特定表示，对于每个分支的架构，我们使用了类似于inception的网络来进行有效和高效的计算，具体情况见图2(b)，在每个分支中，第一个1×1卷积层用于捕获特定于模态的表示，然后通过另外两个具有半通道的1×1卷积层将其分成两个流，以降低输入特征的维数，并馈入两种类型的3×3卷积，以增加网络对不同尺度目标的适应性，它们的输出被连接在一起，作为特定于模态的表示。

集成层 由于跨模态对象跟踪的特殊性，我们设计了两个并行的模态感知分支来捕获特定于模态的表示，但是在跟踪过程中，我们每帧只有一个模态作为输入，不知道呈现的是哪个模态，为了解决这一问题，我们设计了一个集成层，在给定一个模态输入的情况下，自适应地集成两个分支输出的特征，通过这种方法，无论输入哪种模态，都能得到有效的特征。

具体来说，我们利用SKNet通过归一化权值对两个并行分支的特征进行加权，从而实现这两个分支特征的自适应融合，具体设计如图2(c)所示，为了直观地展示我们方法的有效性，我们分别展示了基线跟踪器RT-MDNet 和跟踪器marmotorT-MDNet在通过Tsne算法投影到2D空间后得到的一个示例的特征，如图3所示，可以发现，引入该算法后，RGB和NIR的目标特征之间的差距可以很好地消除。

MArMOT跟踪架构

我们将提出的即插即用MArMOT模型嵌入到两个跟踪框架中，即RT-MDNet 和DiMP-50，分别命名为MArMOT T-MDNet和MArMOTDiMP-50，以验证MArMOT的有效性和普遍化，总体跟踪框架如图4所示。

对于每个跟踪框架，我们首先利用骨干网提取目标的深度特征表示，然后嵌入所提出的MArMOT模型以缩小目标表示在不同模态之间的外观差距，最后将其发送到目标定位的分类分支和回归分支，具体来说，在RT-MDNet的跟踪框架上，我们使用VGG-M的前三层来捕获目标的模态共享特征，然后，在第三层之后插入我们的MArMOT模型，实现模态感知的特征表示学习，更多细节如图4(a)所示，对于DiMP-50跟踪框架，IoU预测器(回归分支)和模型预测器(分类分支)的输入特征不是同一层，因此，我们在IoU预测器和模型预测器的ResNet50的第三块和第四块之后插入MArMOT模型，详细的跟踪框架如图4(b)所示。

三阶段学习算法

在整个跟踪框架的训练过程中存在两个问题，首先，具有任何模态的训练样本的丢失将向后传播到两个模态感知分支，因此，不能保证两个模态感知分支将学习目标的对应模态特定表示，第二，模态信息在训练阶段是可用的，而在测试阶段是不可用的，因此，我们需要训练一个集合层来模拟跟踪过程中的模态不可知情况，针对这两个问题，我们设计了一种有效的三阶段训练算法。

o第一阶段:在数据集上微调基线网络的参数，注意，我们的数据集是第一个跨模态跟踪数据集，为了使跟踪器适应跨模态场景，我们首先需要微调在训练集中其他大规模数据集上预训练的基线网络的参数，将网络参数学习率设置为基线网络默认学习率的十分之一，迭代次数不变。

o第二阶段:训练两个并行的模式感知分支，为了使两个并行的模态感知分支学习目标在不同模态下的模态特定表示，我们首先根据模态类型将训练集分为两个子集，并使用对应的子数据集学习对应模态感知分支的参数，由于基线网络在第一阶段已经适应了跨模态跟踪任务，因此，在这一阶段，我们只学习两个模态感知分支的参数，其余参数是固定的(除了基于RT-MDNet框架的fc6层的参数)，初始学习率设置为1e-6和1e-4，迭代次数设置为50和1000。

o第三阶段:训练集合层，再次对数据集上的基线网络参数进行微调，经过前两个阶段的训练，基线网络已经能够适应跨模态场景的跟踪，两个并行的模态感知分支也学会了目标在不同模态下的模态特定表示，由于在跟踪过程中，每一帧中的哪个模态是未知的，因此需要将主干提取的深度特征发送到两个并行的模态感知分支，以提取对应的模态特定表示，为了模拟跟踪过程中的模态不可知情况，我们在这一阶段训练集合层对两个分支的特征进行加权融合，并在嵌入提出的MArMOT后对网络参数进行调整以适应这种情况，在这一阶段，我们只学习集合层的参数，并对除骨干网外的基线网络的参数进行微调，集合层的学习率与第二阶段的模态感知分支相同，跟踪器的学习率与第一阶段相同，迭代次数设置为与第二阶段相同，图5显示了更多的细节，学习到的部分用橙色表示。

在线跟踪

我们的跟踪器在在线跟踪时的跟踪过程和参数设置与基线跟踪器最一致，唯一的区别是骨干网(MArMOT T-MDNet中的VGG-M和MArMOT模型中的ResNet50)提取的深度特征缓解了不同模态下目标表征的外观差距，MArMOT的输出作为分类器(MArMOTRT-MDNet中的fc4-fc6和MArMOTDiMP-50中的模型预测器)和回归器(MArMOTDiMP-50中的IoU预测器模块)的输入，我们的跟踪器的跟踪过程细节如图4所示。

CMOTB基准

大规模数据集在跨模态目标跟踪中至关重要，因为它们不仅对训练深度跟踪器有用，而且对评估不同的跟踪算法也有用，为此，我们提供了一个大规模的跨模态对象跟踪基准测试，称为CMOTB，在本节中，我们将详细分析CMOTB。

数据收集和标注

大规模收集 目前的目标跟踪领域缺乏跨模态视频数据，因此我们引入了CMOTB基准，我们的目标是为现实场景和挑战提供大规模和高度多样化的跨模态对象跟踪基准，为此，我们使用手持摄像机在大范围的场景和背景复杂性中捕捉视频数据，与传统的视觉跟踪数据不同，我们需要考虑在数据创建中触发模态切换的光强变化，因此，我们精心选择了一些环境条件来模拟现实世界中的应用，如视觉监控、智能交通和自动驾驶系统，图1显示了CMOTB数据集的一个典型例子，我们可以看到成像在RGB和NIR模式之间切换了好几次，通过这种方法，我们共收集了654个交叉模态图像序列，总帧数超过481K，平均视频长度超过735帧。

我们在表1中列出了CMOTB的详细信息，注意，没有其他的跨模态目标跟踪数据集，因此，我们将CMOTB分为训练集和测试集，以便于训练深度跟踪器进行跨模态目标跟踪。

高质量的密集注释 我们使用一个最小边界框来表示物体的状态，包括位置和尺度，并为训练和评估集注释每一帧。由于标记过程耗时且劳动密集型，我们设计了一种基于ViTBA T的辅助标记工具，该工具允许通过一个简单友好的用户界面以一种高效的方式手动或半自动地标记它们的状态。

生成的边界框在大多数情况下都是准确的，然而，当对象经历剧烈的外观变化时，生成的边界框可能不太准确，对于这些边界框，我们手动仔细地调整它们，为了保证高质量的注释，我们培训了4名专业的注释员学习一致的注释标准，另外，我们让专业的检查人员对每一帧进行检查，防止错误和不准确的标记，由于模态切换带来的特殊挑战，一些对象有时会暂时不可见，可能会导致丢失几帧或十几帧，对于这样的场景，我们将保持目标对象的基本事实不变，直到它可见为止。

属性

现有的多模态跟踪数据集，如RGBD和RGBT，在每一帧中包含双模态数据，而我们的数据集在每一帧中只有一个模态，但可能发生模态切换，这是与现有的多模式跟踪数据集的主要区别，模态切换是指由光强变化引起的成像从一种模态转换到另一种模态，在这种情况下，目标对象的外观通常变化很大，因此跟踪器很容易失败，注意，序列中的模态开关数量是影响跟踪器的关键因素，因此，我们取数据创建中的切换时间，并在表2中报告切换时间上的数据分布。

根据模态切换，在CMOTB中引入了一个新的属性，即模态自适应，模态自适应是指在模态切换中，由于成像对环境的适应，某些帧具有较高的强度，它并不总是在成像开关时发生，因此我们把它作为一个属性，为了支持基于属性的跟踪器性能分析，我们从总共11个属性中为每个序列注释了几个属性，包括缩放V变化(SV)、纵横比变化(ARC)、快速运动(FM)、视界外(OV)、模态适应(MA)、运动模糊(MB)、背景杂波(BC)、相似物体(SO)、平面内旋转(IPR)、部分遮挡(PO)和完全遮挡(FO)，属性定义如表3所示，表4显示了属性在测试集中的视频分布情况。

统计

CMOTB由654个视频序列组成，涵盖了现实场景中的大多数挑战，我们以1:2的比例随机分割数据集的测试集和训练集，表4统计了测试集上的属性分布情况，CMOTB的总帧数达到481K，我们的视频序列的平均长度和最大帧数分别达到735和2037帧，更多细节见表1。

讨论

与相关任务的差异 我们讨论了新任务与多模态视觉目标跟踪任务的区别，现有工作通常引入热红外或深度信息来实现多模态视觉目标跟踪，称为RGBT跟踪和RGBD跟踪，与多模态视觉目标跟踪相比，本课题具有以下不同之处和优势，首先，我们的任务更加实际，许多视觉相机配备了近红外成像，但RGBT或RGBD跟踪需要两个相机，第二，我们的任务更具成本效益，热感摄像机通常非常昂贵，深度传感器的成像范围和环境有限，但我们的任务只依赖于监控摄像机，因此没有这些限制，最后，我们的任务中的多模态数据没有任何对齐错误，RGBT和RGBD跟踪任务都涉及两个相机，需要跨不同模式的对准，而我们的成像系统只包括一个相机，其成像可在RGB和NIR模式之间切换。

实验

评估算法

我们在基准上评估了17个最先进和最有代表性的跟踪器，这些跟踪器涵盖了2016年至2020年的主流跟踪算法，它们是MDNet， RT-MDNet ， SiamFC ，SPLT ， GradNet， TACT， SiamMask， VITAL， GlobalTrack， siamrpn++， A TOM ， DiMP-50，SiamBAN、SiamDW 、LTMU 、Ocean和DaSiamRPN ，需要注意的是，DiMP50和RT-MDNet分别是两种具有代表性的基于回归和分类的跟踪框架。

因此，为了证明所提方法的有效性，我们将MArMOT嵌入到分别名为MArMOTDiMP-50和MArMOTRT-MDNet的两个框架中，值得注意的是，所有算法都是使用作者提供的模型在我们的测试集中进行评估的。

评价指标

为了评估不同跟踪器的性能，我们采用了广泛使用的跟踪评估指标，包括精密度(PR)、归一化精密度(NPR)和成功率(SR)进行定量性能评估，PR的比例是帧与真实的距离估计的边界框下一个预定义的阈值，排名追踪者，我们将距离阈值设置为20像素计算PR，然而，由于PR目标尺寸变化非常敏感，因此，我们正常的PR真值的大小来计算归一化精度，距离阈值也将20像素计算。

SR是估计的边界框与ground truth之间的重叠率大于阈值的帧的百分比，我们将重叠率设为0.5，用SR图的曲线下面积分别计算两种具有代表性的SR得分，表示清晰度的SRI得分和SR- ii得分。

整体性能

我们在图6中以精度图、归一化精度图和成功图的形式展示了跟踪性能，并在图例中显示了具有代表性的分数。

基于回归的深度跟踪器 基于回归的跟踪器，如DiMP-50,LTMU,siamrpn++，SiamBAN,ATOM,SiamMask，在实时速度运行的情况下实现了高性能，他们通常接受离线训练，从大规模数据集中学习强大的回归量，以定位目标，然而，由于RGB和NIR模态之间存在较大的异质差距，它们在跨模态目标跟踪方面的性能受到限制，如图6所示，为了验证所提方法的有效性，我们将所提MArMOT插入到DiMP-50跟踪框架中，即MArMOTDiMP-50，并通过所提多阶段训练方法对整个框架进行训练。我们的MArMOTDiMP-50优于基线跟踪器DiMP-50，在PR/NPR/SR-I/SR-II中提高了11.2%/9.7%/11.8%/9.2%，与所有比较方法相比，具有出色的性能提高。

基于分类的深度跟踪器 基于分类的深度跟踪器如MDNet、RT-MDNet和VITAL，通常采用在线学习的方法，利用正样本和负样本训练二元分类器，具有良好的泛化能力，为了验证所提方法的有效性和泛化性，我们还将MArMOT插入到RT-MDNet框架中，即MArMOT T-MDNet，并通过所提的多阶段训练方法对整个框架进行训练。

我们的MArMOT T-MDNet在PR/NPR/SR-I/SR-II方面的收益为15.8%/16.6%/21.4%/15.5%，优于基线跟踪器RT-MDNet，我们可以发现，虽然基线跟踪器的性能很低，但在引入我们提出的模型后，它的性能超过了所有基于分类的跟踪框架，证明了我们提出的方法的有效性。

运行时间分析 为了验证所提方法对跟踪效率的影响，我们对在DiMP-50和RT-MDNet跟踪框架中不使用和使用所提MArMOT的跟踪器进行了效率分析，实验分别在Intel(R) Xeon(R) Silver 4210 CPU (32G RAM)、GeForce RTX 3090 GPU和Intel(R) Xeon(R) Silver 4210 CPU (32G RAM)、GeForce RTX 1080Ti GPU for DiMP-50和RT-MDNet两个平台上运行。表5的最后一列报告了这些跟踪器的运行速度，这表明在增加一个MArMOT时，跟踪速度略有下降。

属性的表现

为了分析现有跟踪器在不同挑战下的性能，我们对基于11个属性的17种跟踪算法进行了评估，如表5所示，从表中可以看出，与其他算法相比，我们的方法MArMOTDiMP-50在所有属性上的结果都是最好的，此外，在两个框架中加入我们的模块后，还可以得出结论，与基线方法相比，每个属性都有很好的性能提升，证明了我们方法的有效性和泛化能力。

训练数据集验证

我们选择了七个具有代表性的跟踪器，包括DiMP-50、RT-MDNet、LTMU、siamrpn++、SiamMask、MDNet和GlobalTrack，以演示我们的训练数据集在深度模型训练中的有效性，结果如表6所示，结果表明所有经过重新训练的深度跟踪器都取得了明显的改进，验证了提出该数据集用于跨模态目标跟踪研究的必要性，此外，在将我们提出的模型加入到DiMP-50和RT-MDNet框架后，我们可以看到，在PR/NPR/SR-I/SR-II上，性能得到了进一步的提高，分别为4.3%/3.3%/3.6%/2.9%和4.8%/5.2%/6.7%/4.6%，这证明了MArMOT的有效性。

MArMOT分析

综合数据的评估

为了进一步验证我们的MArMOT模型的有效性，我们从现有的RGBT数据集(包括GTOT)构建了一个合成rgb-热交叉模态数据集和RGBT234，为了更准确地模拟跨模态跟踪任务，根据光照变化和热交叉的挑战标签，从对应的RGB和热图像中选择一个模态生成合成视频中的每一帧，具体来说，如果第一帧没有光照变化，每个序列总是从RGB模态开始，只有在光照变化或热交叉的挑战下才进行模态切换，另外，如果模态切换次数过多(即模态切换次数大于5次)，则认为该序列挑战性太强，丢弃该序列;如果整个序列中没有模态开关，那么当前序列中1/4到1/2的部分将切换到另一个模态。

对于该合成数据集，我们选择RGBT234数据集作为训练集，GTOT数据集作为测试集，并使用所提出的三阶段训练方法对整个网络进行跨模态RGBT跟踪任务的再训练，实验结果如表7所示。

从结果中可以看出，我们的MArMOT模型能够很好地处理跟踪过程中RGB和热模态之间的外观差异，从而进一步证明了我们的方法在处理不同的跨模态跟踪任务时的泛化和有效性。

模态感知表示的有效性

为了验证提出的模态感知表示和提出的三阶段训练方法的有效性，我们通过使用一级训练方法在CMOTB数据集上一起训练整个网络，实现了名为MArMOTDiMP-50-一级的可变跟踪器。

结果如表8所示，实验结果表明，所提出的三级学习方法在PR/NPR/SR-I/SR-II上的增益为2.3%/1.7%/2.0%/1.6%，优于一级学习方法，证明所提出的三级学习方法有利于模态感知分支学习相应的模态特定目标表示，此外，我们还可以发现，单阶段训练方法的性能仍然优于DiMP-50*，这可以验证所提出的MArMOT模型在挖掘跨模态信息方面的有效性。

结论

我们提供了一个具有高质量密集边界框注释的大规模跨模态对象跟踪基准，我们还提出了一种简单有效的基于模态感知特征学习算法的跨模态目标跟踪方法，在数据集上的大量实验证明了所提出的方法对最先进的跟踪器的有效性，通过发布这个数据集，我们相信它将有助于跨模态目标跟踪的研究和发展，未来，我们将研究更有效的跟踪算法，以解决跨模态跟踪问题，并扩展数据集，以涵盖更多的现实场景。

醋醋百科网

Good Luck To You!

跨模态目标跟踪:模态感知表示和统一基准