Qiao Liu’s Homepage

热红外目标跟踪简介

2022-04-05T00:00:00-07:00

背景

热红外成像是一种被动式夜视技术，其通过接受物体的热辐射并将其转换成电信号而成像。热红外图像反映了物体表面的温度分布场。通常，波长为 3-8 um的中波红外与波长为 8-15 um 的长波红外被统称为热红外。近年来，随着非制冷型热红外成像技术的进步，热红外成像设备开始向小型化、高分辨率、平价化发展，越来越多的民用领域开始使用热红外成像设备。基于热红外图像的视觉智能处理技术，如目标识别、检测、跟踪等开始受到研究人员的关注。不同于可见光目标跟踪，热红外目标跟踪不受光照变化的影响。因此，其可被应用于夜间或是雨雾天气下的辅助驾驶，视频监控，海面救援等场景。

热红外目标跟踪面临的主要问题

与可见光目标跟踪的框架相同，热红外目标跟踪框架可以被划分成四大模块：特征提取，目标状态搜索，决策与模型更新，如下图所示。然而，不同于可见光图像包含颜色与丰富的纹理特征，热红外图像没有颜色也缺乏丰富的纹理信息，如图 1-3所示。同时，受到成像设备工艺与红外图像压缩算法等的影响，热红外图像通常拥有较低的分辨率与信噪比、图像目标轮廓也较模糊。这些不利的因素造成现有的手工设计的特征与基于可见光图像训练的深度特征都难以有效的获取鉴别能力强的热红外表征。如图2-1所示，可以看到手工特征HOG与LBP对同类的热红外行人之间拥有的可区分性要明显的小于对同类的可见光目标。这导致使用这些特征模型的热红外跟踪方法容易漂移到相似的干扰物上。

热红外目标跟踪现状

热红外目标跟踪根据跟踪目标的大小与应用场景可以分为: 面向军事应用场景的热红外弱小目标跟踪和面向民用场景的热红外通用目标跟踪。

热红外弱小目标主要包含两个特性: “弱”与“小”。其中，“弱”指的是图像目标信号弱，通常体现为图像目标的对比度与信噪比都很低。而“小”指的是跟踪的目标在图像上的面积很小，通常只包含几十个像素甚至几个像素，在图像上呈现为一个较亮的“光斑”。图 1-4 展示了热红外弱小目标跟踪中常见的几种跟踪场景与目标类型包括飞机、导弹、坦克等。热红外弱小目标跟踪主要应用于军事场景，如预警与制导等，因此要求跟踪目标的距离必须尽可能的远才能起到理想的效果。而远距离成像必然导致目标信号弱与尺寸小的问题。

受到热红外弱小目标“弱”与“小”性质的影响，跟踪的目标通常缺乏有效的轮廓、结构、和纹理等特征。利用已存的特征提取方法较难获得目标的鉴别性表征。因此，对表观建模的热红外弱小目标跟踪方法在跟踪过程中容易受到背景杂斑等的干扰。此外，热红外弱小目标跟踪过程中目标的信号与状态不稳定，利用固定模板的热红外弱小目标跟踪方法难以有效建模目标状态的变化导致容易发生跟踪的漂移。针对这些问题，大量的热红外弱小目标跟踪方法被提出。这些方法大致可以分为三类: 基于模板匹配的跟踪，基于粒子滤波的跟踪，和基于稀疏表示的跟踪。与热红外弱小目标跟踪相比，热红外通用目标跟踪感兴趣的目标通常距离成像设备较近，因此目标在成像平面上有一个更大的目标尺寸。目标的轮廓，形状也都更加的清晰，如图 1-5 所示。针对不同应用场景热红外通用目标跟踪所感兴趣的目标类别不尽相同，如车载应用场景主要对车辆与行人感兴趣，监控应用场景则主要对行人和动物感兴趣等。不同于可见光下的通用目标跟踪感兴趣的目标可以是任意类别，热红外通用目标跟踪实际上感兴趣的目标通常只包含与背景有明显热辐射差异的物体，如人、动物、车、飞行器、船等。以下简称热红外通用目标跟踪为热红外目标跟踪。

受到热红外图像目标没有颜色、缺乏丰富的纹理、目标轮廓相对模糊等性质的影响，现有的针对可见光图像设计的特征模型难以有效提取热红外目标的高鉴别性特征表示。而热红外跟踪中同类目标通常拥有相似的视觉和语义特征。例如，身着不同颜色衣服且体型相当的两个行人，在热红外图像中的视觉效果极其相似，如图 1-5所示。这导致利用这些特征模型的热红外跟踪方法在跟踪过程中易受到同类目标的干扰而发生漂移。此外，热红外目标跟踪还面临着诸如热交叉、强度变化、背景杂斑、遮挡、尺度变化等挑战。针对不同的问题，研究者们提出了一系列的热红外目标跟踪方法。这些方法可被粗略的划分为两类: 基于传统机器学习的热红外目标跟踪和基于深度学习的热红外目标跟踪。

相关的工作可参考本人的博士论文《基于深度表征学习的热红外目标跟踪方法研究》中的绪论部分。 Paper

主要的热红外跟踪数据集

热红外目标跟踪常用的训练与评估数据集包含如下几个:

LSOTB-TIR [2]: 该数据集包含一个1280个热红外序列的训练数据集和一个120个序列的测试集，是当前热红外跟踪领域规模最大的数据集。Dataset
VOT-TIR2016 [3]: 包含25个热红外序列，仅用于测试。Dataset
PTB-TIR [4]: 包含60个热红外行人序列，仅用于测试。Dataset

热红外目标跟踪未来的研究方向

学习热红外专有特征: 由于热红外图像拥有一些独特的属性，因此，学习热红外图像专有的特征模式对于提升热红外目标跟踪的性能至关重要。前期的研究发现学习热红外图像的细粒度特征对于识别相似干扰物至关重要。然而，如何学习热红外图像的细粒度特征有待更深入的研究。可能的方向包括:（1）利用Transfomer网络结构学习热红外图像的全局依赖关系；（2）利用迁移学习从可见光数据中获取有利于热红外跟踪的特征；（3）在更大规模的无标签热红外数据集上进行自监督学习，然后在已有标签的热红外数据集上微调。
学习热红外先验信息: 先验信息通常通过在大规模数据集上离线学习而得到。如，Siamese系列方法学习的相似度匹配函数，ATOM系列方法学习的IOU-predictor等。尽管这些先验信息学习自可见光数据集，对热红外目标跟踪也有一定的作用。此外，热红外也包含一些独特的先验信息，如: 热红外目标与背景强度通常有显著的差异。因此，估计热红外图像的深度信息对处理遮挡问题应该有一定的帮助。由于热红外图像目标的强度很稳定，因此，在热红外视频序列中或许能获得更加准确的光流信息来辅助热红外目标跟踪。
Long-term 热红外跟踪: 相比于short-term的热红外跟踪，long-term的热红外跟踪更适合于实际应用。然而，当前的long-term跟踪中常用一些基于阈值设定的方法来重新初始化一个检测器，这种方式难以有效适应不同的应用场景。通过一个单独的模块或方法学习一个判断方法或许更加适用。此外，重检测通常在全图范围内搜索目标也很耗时。通过利用热红外图像前背景强度的差异的先验进行启发式的搜索能获得更快的效率。

主要的参考文献

[1] 刘乔，基于深度表征学习的热红外目标跟踪方法研究，博士学位论文，2021.

[2] Qiao Liu et al, LSOTB-TIR: a Large-scale High-diversity Thermal Infrared Object Tracking Benchmark, ACM MM, 2020.

[3] Felsberg M, et al. The Thermal Infrared Visual Object Tracking VOT-TIR2016 Challenge Results, ECCVW, 2016.

[4] Qiao Liu et al. PTB-TIR: a Thermal Infrared Pedestrian Tracking Benchmark, TMM, 2019.

基于孪生卷积神经网络的目标跟踪方法介绍

2017-05-23T00:00:00-07:00

前言

Fully-Convolutional Siamese Networks for Object Tracking（Siamese-fc）这篇文章发表在ECCV 2016年的Workshop上, 但是文章在目标跟踪领域却产生了不小的影响。 Siamese-fc在当前大多数基于CNN的目标跟踪方法普遍较慢的情况下，实现了超实时的帧率，在处理3种尺度变换的情况下可以达到86 FPS。跟踪的效果虽然比不上其它的state-of-the-art的方法，但也取得了较有潜力的结果，在OTB-2013上的AUC达到0.612。

动机与贡献

文章主要的动机来源于两点:（1）传统的跟踪方法通常只利用跟踪序列本身作为训练模型的数据来源（通常是第一帧），数据量有限导致模型的表达能力有限。（2）当前的基于CNN的一些跟踪方法普遍采用在线微调的方式更新模型，以适应不同的跟踪目标。但是在线微调的方式非常耗时，直接导致跟踪方法难以实时。

作者提出利用ImageNet中用于检测任务的视频序列 ILSVRC 2015（4417个）离线训练一个相似性验证的Siamese网络，然后在跟踪过程直接利用该网络验证下一帧的所有候选中哪一个与我们要跟踪的目标最相似，最相似的一个候选作为跟踪的结果。此过程中，网络并无更新，模板仅为第一针要跟踪的目标。利用大量的与跟踪任务无关的视频序列训练模型解决了数据量不足的问题，又利用跟踪过程模型不更新克服了深度学习跟踪方法速度慢的问题。

文章的主要贡献在于提出的全卷积相似性度量的Siamese网络，并用于解决跟踪问题，取得了较有潜力的结果。如下图，z是要跟踪的目标模板，x是下一帧的搜索区域。经过Siamese网络后我们得到两个特征图，分别用于表示x与z。最后我们只需对这两个特征图做一个相关操作，则可以得到一个响应图。响应图上的每一个点则代表了目标与搜索区域的候选的相似程度，取响应值最大的即跟踪的结果。作者利用的全卷积的网络结构，提供了一个高效的相关方式，避免了在全连接层做相关的低效性。

孪生网络的训练过程

如何训练这样一个全卷积的相似性度量网络是本文的一个关键。同一个目标在不同帧中它的表观会因为形变等因素发生变化，Siamese网络需要学习这种变化关系。作者利用大量的视频序列制作出上百万的样本对来学习这种变化关系。具体的样本对制作方式为: 首先，把原始图像进行一定比例的缩放，然后以目标为中心剪裁一个127*127的目标区域，超出边界的用图像均值填充，作为一个目标模板。再以目标为中心裁剪一个255*255的区域作为搜索区域，同样超出边界的以图像均值填充。这样目标模板和搜索区域就构成了一个样本对。训练时在搜索区域中心半径R内的目标框被认为是与目标模板相同的目标，与目标模板组成正样本对，如下图绿色圆圈内。样本对做好后就是如何训练网络的问题，如下图所示，作者采用 logistic loss 作为目标函数采用批量梯度下降的方式进行训练。训练过程中由于输出的响应图（17*17）相对搜索区域缩小了很多，因此给定的标签是从原始搜索区域给定的标签范围映射到响应图上的。

存在的问题

Siamese-fc提供了一个高速的基于深度学习的目标跟踪框架，启发性很强。单就该框架而言，也存在很多问题，可以改进。如:

仅仅利用最后一层卷积层的特征表示能力有限。可利用多层卷积特征提高跟踪准确率，如SINT。
模型不更新，准确率受到很大的限制。如果更新模型，全卷积模型如何更新呢？
搜索区域255受到比较大的限制，能否全图搜索。
17*17的响应图比较粗糙，不利于定位，仅仅采用线性插值的方式进行上采样结果提高并不多。

预计接下来两年基于Siamese网络结构的深度学习跟踪算法将会是一个比较热门的研究方向，相关的改进将很快出现。

视觉目标跟踪简介

2017-03-02T00:00:00-08:00

前言

视觉目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如视频监控，人机交互，无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步，特别是最近两年利用深度学习的目标跟踪方法取得了令人满意的效果，使目标跟踪技术获得了突破性的进展。本文旨在简要介绍目标跟踪的基本流程与框架，目标跟踪存在的挑战，目标跟踪相关方法，以及目标跟踪最新的进展等，希望通过这篇文章能让读者对视觉目标跟踪领域有一个较为全面的认识。

视觉目标跟踪基本流程与框架

视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。这一基本任务流程可以按如下的框架划分:

输入初始化目标框，在下一帧中产生众多候选框（Motion Model），提取这些候选框的特征（Feature Extractor），然后对这些候选框评分（Observation Model），最后在这些评分中找一个得分最高的候选框作为预测的目标（Prediction A），或者对多个预测值进行融合（Ensemble）得到更优的预测目标。

根据如上的框架，我们可以把目标跟踪划分为5项主要的研究内容。（1）运动模型: 如何产生众多的候选样本。（2）特征提取: 利用何种特征表示目标。（3）观测模型: 如何为众多候选样本进行评分。（4）模型更新: 如何更新观测模型使其适应目标的变化。（5）集成方法: 如何融合多个决策获得一个更优的决策结果。下面分别简要介绍这5项研究内容。

运动模型（Motion Model）: 生成候选样本的速度与质量直接决定了跟踪系统表现的优劣。常用的有两种方法: 粒子滤波（Particle Filter）和滑动窗口（Sliding Window）。粒子滤波是一种序贯贝叶斯推断方法，通过递归的方式推断目标的隐含状态。而滑动窗口是一种穷举搜索方法，它列出目标附近的所有可能的样本作为候选样本。

特征提取（Feature Extractor）: 鉴别性的特征表示是目标跟踪的关键之一。常用的特征被分为两种类型: 手工设计的特征（Hand-crafted feature）和深度特征（Deep feature）。常用的手工设计的特征有灰度特征（Gray），方向梯度直方图（HOG），哈尔特征（Haar-like），尺度不变特征（SIFT）等。与人为设计的特征不同，深度特征是通过大量的训练样本学习出来的特征，它比手工设计的特征更具有鉴别性。因此，利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果。

观测模型（Observation Model）: 大多数的跟踪方法主要集中在这一块的设计上。根据不同的思路，观测模型可分为两类: 生成式模型（Generative Model）和判别式模型（Discriminative Model）。生成式模型通常寻找与目标模板最相似的候选作为跟踪结果，这一过程可以视为模板匹配。常用的理论方法包括: 子空间，稀疏表示，字典学习等。而判别式模型通过训练一个分类器去区分目标与背景，选择置信度最高的候选样本作为预测结果。判别式方法已经成为目标跟踪中的主流方法，因为有大量的机器学习方法可以利用。常用的理论方法包括: 逻辑回归，岭回归，支持向量机，多示例学习，相关滤波等。

模型更新（Model Update）: 模型更新主要是更新观测模型，以适应目标表观的变化，防止跟踪过程发生漂移。模型更新没有一个统一的标准，通常认为目标的表观连续变化，所以常常会每一帧都更新一次模型。但也有人认为目标过去的表观对跟踪很重要，连续更新可能会丢失过去的表观信息，引入过多的噪音，因此利用长短期更新相结合的方式来解决这一问题。

集成方法（Ensemble Method）: 集成方法有利于提高模型的预测精度，也常常被视为一种提高跟踪准确率的有效手段。可以把集成方法笼统的划分为两类: 在多个预测结果中选一个最好的，或是利用所有的预测加权平均。

视觉目标跟踪面临的挑战

视觉运动目标跟踪是一个极具挑战性的任务，因为对于运动目标而言，其运动的场景非常复杂并且经常发生变化，或是目标本身也会不断变化。那么如何在复杂场景中识别并跟踪不断变化的目标就成为一个挑战性的任务。如下图我们列出了目标跟踪中几个主要的挑战因素:

其中遮挡（Occlusion）是目标跟踪中最常见的挑战因素之一，遮挡又分为部分遮挡（Partial Occlusion）和完全遮挡（Full Occlusion）。解决部分遮挡通常有两种思路:（1）利用检测机制判断目标是否被遮挡，从而决定是否更新模板，保证模板对遮挡的鲁棒性。（2）把目标分成多个块，利用没有被遮挡的块进行有效的跟踪。对于目标被完全遮挡的情况，当前也并没有有效的方法能够完全解决。

形变（Deformation）也是目标跟踪中的一大难题，目标表观的不断变化，通常导致跟踪发生漂移（Drift）。解决漂移问题常用的方法是更新目标的表观模型，使其适应表观的变化，那么模型更新方法则成为了关键。什么时候更新，更新的频率多大是模型更新需要关注的问题。

背景杂斑（Background Clutter）指得是要跟踪的目标周围有非常相似的目标对跟踪造成了干扰。解决这类问题常用的手段是利用目标的运动信息，预测运动的大致轨迹，防止跟踪器跟踪到相似的其他目标上，或是利用目标周围的大量样本框对分类器进行更新训练，提高分类器对背景与目标的辨别能力。

尺度变换（Scale Variation）是目标在运动过程中的由远及近或由近及远而产生的尺度大小变化的现象。预测目标框的大小也是目标跟踪中的一项挑战，如何又快又准确的预测出目标的尺度变化系数直接影响了跟踪的准确率。通常的做法有: 在运动模型产生候选样本的时候，生成大量尺度大小不一的候选框，或是在多个不同尺度目标上进行目标跟踪，产生多个预测结果，选择其中最优的作为最后的预测目标。

当然，除了上述几个常见的挑战外，还有一些其他的挑战性因素: 光照（illumination）,低分辨率（Low Resolution）,运动模糊（Motion Blur）,快速运动（Fast Motion），超出视野（Out of View），旋转（Rotation）等。所有的这些挑战因数共同决定了目标跟踪是一项极为复杂的任务。更多信息请参考OTB官网。

视觉目标跟踪方法

视觉目标跟踪方法根据观测模型是生成式模型或判别式模型可以被分为生成式方法（Generative Method）和判别式方法（Discriminative Method）。前几年最火的生成式跟踪方法大概是稀疏编码（Sparse Coding）了, 而近来判别式跟踪方法逐渐占据了主流地位，以相关滤波（Correlation Filter）和深度学习（Deep Learning）为代表的判别式方法也取得了令人满意的效果。下面我们分别简要概括这几种方法的大体思想和其中的一些具体的跟踪方法。

稀疏表示(Sparse Representation): 给定一组过完备字典，将输入信号用这组过完备字典线性表示，对线性表示的系数做一个稀疏性的约束（即使得系数向量的分量尽可能多的为0），那么这一过程就称为稀疏表示。基于稀疏表示的目标跟踪方法则将跟踪问题转化为稀疏逼近问题来求解。如稀疏跟踪的开山之作L1Tracker, 认为候选样本可以被稀疏的表示通过目标模板和琐碎模板，而一个好的候选样本应该拥有更稀疏的系数向量。稀疏性可通过解决一个L1正则化的最小二乘优化问题获得，最后将与目标模板拥有最小重构误差的候选样本作为跟踪结果。L1Tracker中利用琐碎模板处理遮挡，利用对稀疏系数的非负约束解决背景杂斑问题。随后在L1Tracker基础上的改进则有很多，比较有代表性的有ALSA，L1APG等。

相关滤波(Correlation Filter): 相关滤波源于信号处理领域，相关性用于表示两个信号之间的相似程度，通常用卷积表示相关操作。那么基于相关滤波的跟踪方法的基本思想就是，寻找一个滤波模板，让下一帧的图像与我们的滤波模板做卷积操作，响应最大的区域则是预测的目标。根据这一思想先后提出了大量的基于相关滤波的方法，如最早的平方误差最小输出和（MOSSE）利用的就是最朴素的相关滤波思想的跟踪方法。随后基于MOSSE有了很多相关的改进，如引入核方法（Kernel Method）的CSK，KCF等都取得了很好的效果，特别是利用循环矩阵计算的KCF，跟踪速度惊人。在KCF的基础上又发展了一系列的方法用于处理各种挑战。如: DSST可以处理尺度变化，基于分块的（Reliable Patches）相关滤波方法可处理遮挡等。但是所有上述的基于相关滤波的方法都受到边界效应（Boundary Effect）的影响。为了克服这个问题SRDCF应运而生，SRDCF利用空间正则化惩罚了相关滤波系数获得了可与深度学习跟踪方法相比的结果。

深度学习（CNN-Based）: 因为深度特征对目标拥有强大的表示能力，深度学习在计算机视觉的其他领域，如: 检测，人脸识别中已经展现出巨大的潜力。但早前两年，深度学习在目标跟踪领域的应用并不顺利，因为目标跟踪任务的特殊性，只有初始帧的图片数据可以利用，因此缺乏大量的数据供神经网络学习。只到研究人员把在分类图像数据集上训练的卷积神经网络迁移到目标跟踪中来，基于深度学习的目标跟踪方法才得到充分的发展。如: CNN-SVM利用在ImageNet分类数据集上训练的卷积神经网络提取目标的特征，再利用传统的SVM方法做跟踪。与CNN-SVM提取最后一层的深度特征不同的是，FCN利用了目标的两个卷积层的特征构造了可以选择特征图的网络，这种方法比只利用最后的全连接层的CNN-SVM效果有些许的提升。随后HCF, HDT等方法则更加充分的利用了卷积神经网络各层的卷积特征，这些方法在相关滤波的基础上结合多层次卷积特征进一步的提升了跟踪效果。然而，跟踪任务与分类任务始终是不同的，分类任务关心的是区分类间差异，忽视类内的区别。目标跟踪任务关心的则是区分特定目标与背景，抑制同类目标。两个任务有着本质的区别，因此在分类数据集上预训练的网络可能并不完全适用于目标跟踪任务。于是，Nam设计了一个专门在跟踪视频序列上训练的多域（Multi-Domain）卷积神经网络（MDNet），结果取得了VOT2015比赛的第一名。但是MDNet在标准集上进行训练多少有一点作弊的嫌疑，于是VOT2016比赛中禁止在标准跟踪数据集上进行训练。2016年SRDCF的作者继续发力，也利用了卷积神经网络提取目标特征然后结合相关滤波提出了C-COT的跟踪方法取得了VOT2016的冠军。

视觉目标跟踪最新进展

目标跟踪最近几年发展迅速，以基于相关滤波（Correlation Filter）和卷积神经网络（CNN）的跟踪方法已经占据了目标跟踪的大半江山。如下图给出的2014-2016年以来表现排名靠前的一些跟踪方法。

可以看到前三名的方法不是基于相关滤波的方法就是基于卷积神经网络的方法,或是两者结合的方法。比如ECCV2016的C-COT就是在相关滤波的基础上结合卷积神经网络的杰作。下图给出这些方法在标准跟踪数据集OTB2013上的跟踪结果:

可以看到基于卷积神经网络的方法取得了惊人的突破，以MDNet为首的CNN方法较2014年的第一名DSST在成功率上有15个百分点的提升。预计未来两年相关滤波和卷积神经网络将仍然会是目标跟踪领域的主角。