精华内容
下载资源
问答
  • 视觉目标跟踪
    千次阅读
    2021-11-22 18:52:08

    第一次在知乎写文章,想谈谈博士期间比较熟悉的视觉目标跟踪。过去每一年的这个时候都在忙碌的赶CVPR,今年突然闲下来,有点不适。工作之余,写点文章当作是怀念科研的时光。步入正题,谈谈最近在CVPR2021和ICCV2021上看到的几篇无监督单目标跟踪算法。

    单目标跟踪任务,给定初始目标的位置和尺寸,要求跟踪器持续地对目标进行定位。不同于多目标跟踪,单目标跟踪要求可以处理任意的物体,而多目标跟踪通常是固定类别的物体,如行人、车辆等。因此,单目标跟踪算法的这种“物体不定性”就好比一把双刃剑,一方面,待跟踪物体包罗万象,各种奇奇怪怪的物体为该任务带来诸多挑战;另一方面,不限制目标类别,又为跟踪任务的建模和训练带来无限可能。

    早年间,相关滤波器统治跟踪领域时,基于局部的相关滤波器算法将物体划分成小块,并对小块进行逐帧跟踪。曾让我惊讶的是,这些细小的目标(比如一个人的衣角、身体局部)等仍然可以在较短的时间内跟踪的不错。后续算法甚至跟踪目标的边缘,以实现跟踪框的自适应变化。既然跟踪器被要求跟踪任意的物体,包括不规则物体、物体局部、物体边缘等,那么在模型训练时是否真的需要标注一个个明确的物体?我们是否可以在深度学习时代,无监督地训练深度跟踪器?

    UDT (CVPR 2019)

    在“Unsupervised Deep Tracking”[1]中,基于跟踪器对于物体类别不敏感的这种特性以及物体在是视频中的时序特性,我曾经将DCFNet算法[2]进行了无监督训练。基本出发点在于,随机选择视频中的一个区域,对其进行前向和反向跟踪,并依据前后跟踪轨迹的一致性进行模型的训练。第一版实验结果便出乎我的意料,随意选择视频中的一个区域作为目标,进行无监督训练,就可以将DCFNet训练的还不错。我知道,这一方面源于Correlation Filter的强大辨别能力,哪怕将图片变为灰度图怼进去,DCF也能跟踪的七七八八,何况现在又训练了一个CNN作为特征提取网络。

    但当初让我惊讶的点在于,在ILSVRC2015中即便使用随意选取的目标(或者说是图片中随意的区域),无监督训练的结果也仅仅和全监督相差5~6点的AUC。后面又增加了一些trick,引入多帧无监督训练,修改loss函数等,又将DCFNet的无监督训练和全监督训练的性能差距缩小到3% AUC。

    图片

    UDT算法的流程示意图

    其实当初选择DCFNet作为Baseline有很大的私心,因为我知道DCF的强大辨别能力以及在后端可以设计trick并调整各种超参数(比如跟踪尺度惩罚因子、DCF学习率等),使得无监督算法的性能有基础的保障,快速水一篇论文,赶上当年的CVPR deadline。当时由于时间的紧迫,很多实验也并没有测试。后续在期刊中(简记LUDT算法[3]),经过进一步的验证,无监督学习到的跟踪特征确实明显好于HOG等手工特征和自编码器等无监督特征,说明这种“前向-反向验证”的无监督训练模型学到了适合于跟踪任务的表征。

    UDT这份工作仍然有一些不满意的地方。这篇文章的训练流程图看似行云流水,仿佛是一个end-to-end的框架,然后伪标签的生成部分是不可导的。实验中发现,直接将前向跟踪得到的response map作为反向跟踪器的标签效果极差。因此,伪标签生成时以前向结果再次生成标准的高斯分布作为反向跟踪的标签。

    这样,整个forward tracking部分就如同于在标数据,backward tracking部分在利用前向标注的数据进行DCFNet的训练。只是在不断训练过程中,模型逐步挖掘到好的训练样本,逐步提升跟踪能力,周而复始,前向跟踪的标注越来越好,后向跟踪持续提升跟踪能力。整个过程如下图所示。另外,我当时也很想知道SiamFC等算法是否同样可以无监督训练并达到优异结果,因为我知道设计的UDT算法性能有DCF的加持,而单纯的SiamFC跟踪器更加考验网络的表征能力。但后来时间仓促,也不了了之。

    图片

    PUL (CVPR 2021)

    直到最近,在2021年的CVPR和ICCV上都看到了无监督跟踪的论文,又再次认真研究起来。在“Progressive Unsupervised Learning for Visual Object Tracking” (CVPR 2021)一文中(简记PUL算法[4]),作者首先使用contrastive learning学到到如何前景、背景区分的能力。在经典的训练数据集ILSVRC 2015中,PUL算法首先使用EdgeBox生成高质量的proposal,并借助前景、背景区分模块进行时序上的训练样本收集。

    最后,由于这些无监督收集到的样本无可避免的存在噪声,作者又重新优化了SiamFC的loss function,以适应当前的无监督数据。该论文主要仍然针对两方面优化无监督跟踪训练:数据采集和模型训练。数据采集上,借助EdgeBox和contrastive model,PUL算法得到了更高质量的无监督样本,相比于UDT的随机采集和LUDT的基于图片熵的选取要好很多。该工作取得了相当优异的性能,相比于全监督的SiamFC并没有落后很多,证明了学习到的特征表达的鲁棒性。

    图片

    PUL算法示意图

    图片

    PUL算法对比结果

    USOT (ICCV 2021)

    在“Learning to Track Objects from Unlabeled Videos”(ICCV 2021)文章中(简记USOT算法[5])中,作者将无监督跟踪分成三个部分:数据生成、单帧训练、多帧训练。在数据生成部分,USOT采用无监督光流的ARFlow方法找到视频中的运动物体,并使用帧间的动态规划算法进行BBox的优化。相比于LUDT采用的图片熵、PUL采用的EdgeBox等基于内容、纹理选取目标区域的方法,USOT的数据处理更加用心,可以捕获运动目标以更适合于跟踪任务训练。

    接下来,USOT在单帧内进行目标跟踪,即将目标和当前帧的搜索区域组成一组训练样本对,可以快速的学习到初始的跟踪能力。最后,为了挖掘时序上目标的外观变化,作者在视频帧间进行"前向-反向"跟踪,并将跟踪结果组成memory queue,并学习不同的目标样本如何加权,为在线跟踪阶段的模型更新做好准备。

    图片

    USOT算法示意图

    USOT的基线算法是更加先进的双路网络,Anchor-free Siamese Tracker: Ocean [6]。有些出乎我的意料,因为无监督样本的噪声很大,目标框很难准确地、紧密地包含物体,导致目标框的回归问题格外困难。我曾经想尝试无监督地训练ATOM [8]中的IOUNet,但最后结果不够理想,也不了了之。我猜测USOT可能基于高质量的光流BBox以及帧内训练,使得目标尺度回归变为可能。

    该工作的"cycle memory training"很可能一定程度受启发于Ocean算法,在无监督训练时学习额外的加权模型,便于在线跟踪时利用template memory加权更新外观模型。相比于LUDT、PUL等,USOT使用了更多的无监督数据,包含GOT-10k、ImageNet-VID、LaSOT、Youtube VOS等、直接对标SiamRPN++ [7]、DiMP [9]等工作。另外该方法对于时序帧的利用也更加充分,可以前向-反向探索40~60帧的长度,远超LUDT的10帧左右。

    图片

    USOT算法在TrackingNet上的对比结果

    图片

     USOT算法在LaSOT上的对比结果

    USOT论文列举了它自己的贡献:如运动目标挖掘、单帧探索和帧间探索相结合、cycle memory mining等。但在我看来,他更重要的贡献是将无监督跟踪器朝着网络更深、数据规模更大的方向演进、朝着目标尺度回归的方向演进,我个人认为这些尝试是无监督跟踪算法性能提升的必经之路,也是尤为重要的。特别是BBox Regression,我认为这是全监督和无监督跟踪器performance gap的主要症结所在。USOT的性能相比于LUDT有大幅度的提升,这不出乎我的意料。但是在LaSOT数据集中,USOT算法的性能仍远低于SiamRPN++ [7]、ATOM [8]等算法。

    从我个人的经验看来,尺度回归的准确性对于LaSOT的性能提升十分巨大,我相信LaSOT上大部分AUC 30+%的跟踪器的前景-背景的区分能力都不弱(如MDNet、ECO、SiamDW),它们和AUC 50%左右的跟踪器可能就差一个IOUNet或者RPN结构。我也曾经尝试过将MDNet加上ATOM的IOUNet,性能瞬间提升10%左右。

    从另外一个角度,我们可以将ATOM和USOT*进行对比。AOTM的classification分支没有经过离线训练(类似于相关滤波器的岭回归在线优化过程),仅仅只有一个IOUNet需要训练,便性能SOTA。而使用了ImageNet上全监督训练的Resnet backbone的 USOT*算法在LaSOT的AUC性能为35%左右,和ATOM足足差了15%,我猜测这两者最主要的gap还是在于目标的尺度回归能力。

    小结

    无监督跟踪算法的优化和提升仍然任重道远。最后随便写点感想:

    无监督任务最吸引人的魅力就在于无需标注成本,当训练数据的规模呈现数量级的突破时,往往会出现意想不到的事情。例如最近的CLIP、ALIGN等基于多模态的预训练算法,简单粗暴,但确实让人惊讶。而无监督跟踪是否同样有这样的潜力呢?

    目标尺度的回归仍然是一个重要问题。我相信样本数据充分挖掘的时候,跟踪器的区分能力不再是瓶颈,更何况跟踪领域从来不缺few-shot classification的建模能力(诸如各种类型的相关滤波器,few-shot网络等)。但从无标注视频中获取高质量的尺度回归能力仍是一个开放性问题。我曾经结合过unsupervised correspondence learning进行pixle-level的跟踪,并将patch-level VOT和pixel-level VOS结合起来,但效果也不够理想。回到文章开头的问题"跟踪模型训练是否需要明确的物体标注?"我想对于跟踪器的区分能力提升,可能并不迫切,正好比正负样本的contrastive learning也从来不要求是目标严丝合缝的矩形框。但是,对于尺度回归呢,无标注视频中的局部物体,语义不明确物体,对回归网络带来的噪声该如何避免?

    此外,我曾经思考无监督跟踪能为跟踪领域带来什么,一篇有点创新但跟踪效果远远不够的算法?无监督跟踪训练的价值还有待于挖掘。能否通过大规模的无监督跟踪的预训练,得到高质量的、鲁棒的、适合于VOT、VOS的特征表达,并提升一系列的下游子任务(例如模板匹配、VOT、VOS、光流相关任务)?那样将会极大地提升无监督跟踪训练的意义。就好比与BERT的预训练之于各种NLP任务,Vision+Language的预训练对于各种多模态下游任务一样。无监督学习的特征虽然目前还不足够鲁棒,但大规模训练后,是否可以作为跟踪器backbone的更好的初始化参数?

    最后,还想聊聊无监督跟踪训练和无监督的correspondence learning之间千丝万缕的联系,但是限于篇幅,有空再更吧。上述仅是个人浅薄的观点,如有错误敬请指正。

    参考文献

    [1] N. Wang, et al. Unsupervised Deep Tracking. In CVPR, 2019.

    [2] Q. Wang, et al. DCFNet: Discriminant Correlation Filters Network for Visual Tracking. arXiv:1704.04057, 2017.

    [3] N. Wang, et al. Unsupervised Deep Representation Learning for Real-Time Tracking. IJCV, pages 1–19, 2020.

    [4] Q. Wu, et al. Progressive Unsupervised Learning for Visual Object Tracking. In CVPR, 2021.

    [5] J. Zheng, et al. Learning to Track Objects from Unlabeled Videos. In ICCV, 2021.

    [6] Z. Zhang, et al. Ocean: Object-aware Anchor-free Tracking. In ECCV, 2020.

    [7] B. Li, et al. SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks. In CVPR, 2019.

    [8] M. Danelljan, et al. ATOM: Accurate Tracking by Overlap Maximization. In CVPR, 2019.

    [9] G. Bhat, et al. Learning Discriminative Model Prediction for Tracking. In ICCV, 2019.

    作者:王宁

    深延科技|

    图片

    深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。

    更多相关内容
  • 使用matlab重写的MOSSE跟踪器。主要思想是根据论文Visual Object Tracking using Adaptive Correlation Filters(MOSSE Filter)。
  • 视觉目标跟踪综述

    2018-12-13 11:27:15
    对近年来的视觉跟踪技术加以分析,并对典型算法作对比
  • 基于深度学习的视觉目标跟踪算法.pdf
  • 视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临...
  • 针对视觉目标跟踪算法中存在的快速运动、尺度变化、形变和遮挡问题, 提出基于图像签名算法的视觉目标跟踪算法。该算法以相关滤波算法为基础, 通过多种特征构建目标的外观模型, 提高了算法的跟踪精确度和稳健性; 为了...
  • 随着摄像终端的增多以及自动视频分析需求量的增大,针对视频序列中存在突然运动、遮挡、运动模糊等干扰因素时传统视觉目标跟踪方法很难获得鲁棒性高、精确稳定的目标跟踪的问题,提出了利用多特征混沌粒子滤波的视觉...
  • 为了实现视觉目标跟踪,提出了一种基于EtherCAT总线的视觉目标跟踪平台的设计方案。该平台通过EtherCAT总线技术实现主从站数据通信,主站通过Mean Shift跟踪算法程序求出跟踪目标中心点坐标数据,从站结合DSP伺服...
  • 视觉目标跟踪

    千次阅读 2020-08-30 19:19:57
    视觉目标跟踪(Visual Object Tracking)是计算机视觉领域的一个重要问题。尽管近年来受到了广泛研究,目标跟踪问题由于本身的高难度、高质量数据的稀少,研究热度比目标检测、语义分割等基本视觉任务略低一些。深度...

    转自:https://zhuanlan.zhihu.com/p/76153871

    视觉目标跟踪(Visual Object Tracking)是计算机视觉领域的一个重要问题。尽管近年来受到了广泛研究,目标跟踪问题由于本身的高难度、高质量数据的稀少,研究热度比目标检测、语义分割等基本视觉任务略低一些。深度学习的发展和计算机算力的增强带来了视觉算法性能的突飞猛进,而目标跟踪领域中基于深度神经网络的方法只在近几年才初见端倪,可谓大有可为。

    如果你对视觉目标追踪有所兴趣或者是这一领域的入门新手,本文将帮助你对视觉目标追踪问题和经典方法有一个初步的了解。如果你是已经有了一定相关知识储备的研究者,也欢迎探讨、指教。

    目录

    1. 单目标跟踪
      1. 起源——相关滤波与目标跟踪
      2. 发展——日渐完善的CF模型
      3. 现状——孪生网络风生水起
      4. 困难——卷积层层困难重重
    2. 多目标跟踪
      1. 问题定义
      2. 典型方法
    3. 相关资源
    4. 参考文献

    单目标跟踪

    起源——相关滤波与目标跟踪

    给你一张我的正脸照(没有经过美颜处理的),你该如何在人群中找到我呢?一种最直观的方案就是:“谁长得最像就是谁”。但是对于计算机来说,如何衡量“长得像”,并不是个简单的问题。这就涉及一种基本的运算——互相关(cross-correlation)。互相关运算可以用来度量两个信号之间的相似性。在离散的图像空间中,它的数学定义是这样的:

    h 和 f 分别为核和图像,代表着我们要搜索的目标模版和存在要搜索的目标的图像。如果这个公式对你来说有点难以理解,那你又能否记起离散图像空间卷积运算的定义:

    哦~从公式看,它俩不就是把 h 水平、垂直分别翻转一下的关系嘛!实际上,在很多机器学习库的实现中,所谓的“卷积”就是通过互相关运算来实现的——反正卷积核中的所有参数都是通过优化得到的、物理意义不明的值,它要做的仅仅是“在卷积核合适的位置学习合适的值”。严格使用卷积运算学习得到的核,等价于使用互相关运算学习到的核的180度翻转。非要去纠结这二者的不同,也就意义不大了。

    话说回来,互相关运算让我们得以衡量 h 与 f 的相似度,换句话说,互相关得到的响应图中每个像素的响应高低代表着每个位置相似度的高低。假设目标存在于新一帧图像 f 中的话,那么在 h 和 f 对得最齐的地方就应该是目标中心的位置了!
    但是紧接着,这样的思路就又会出现一些难点:目标的形状、大小甚至身处的环境都是在不断发生变化的。在考虑这些变数的同时,如何学习目标不变的那些特性,从而准确地进行定位呢?或者说,如何让核 h 能够通过与 f 的互相关运算来最有效地得到响应呢?这也就是单目标跟踪主流方法所尝试的思路。用更数学一点的定义来讲,就是:

     

    的定义则是响应图的ground truth。因为我们处理的是一个连续的图像序列,所以还存在下标 i 通过对上式中的 h 对整个图像序列进行优化,我们可以让目标跟踪算法学习一个最优的相关滤波器。为了提升优化的速度,我们还可以把 h 和 f 投射到傅里叶频域。空域中的互相关运算在频域中变成了逐项相乘,优化目标也就变成了:

    它等价于:

    那么对于整个序列而言,我们可以解出最优的


    但这并不一定对于每一帧图像都是最优的。为了让

    随着序列的进行而适应性地进行更新,我们可以递归式地定义不断更新中的


    通过调整更新学习率参数

    我们可以让算法学得具有高鲁棒性并且能够快速适应目标外观变化的

    上述的过程就是首次在单目标跟踪问题上使用相关滤波的工作——MOSSE[1])(Minimum Output Sum of Squared Error, CVPR10, F. Henriques et al.)的基本思路。

    发展——日渐完善的CF模型

    一转眼,距离MOSSE被提出已经是九年多的光景。如今的单目标视觉跟踪已经发展到了怎样的状态了呢?请看下图:


    近年来目标跟踪方法的发展(图片来源:foolwood/benchmark_results

    在这个大树中,MOSSE成为了CF(Correlation Filter,即相关滤波)目标追踪算法的鼻祖。在MOSSE之后,各种基于相关滤波思路的目标追踪方法蓬勃发展、日渐繁荣,而它们的目标追踪算法基本框架如下图所示。

    基于相关滤波的目标追踪基本框架(图片来自网络)

    尽管大体框架相同,当年的MOSSE在各种卷积神经网络层出不穷的今天看来已经非常落后了——你能想象MOSSE甚至没有使用手工特征,而是直接使用像素灰度值进行运算的吗?现在的相关滤波跟踪算法一般需要用到CN(Color Names)、HOG(Histogram of Oreinted Gradients)等手工特征以及用CNN提取的特征进行结合从而用于滤波器的学习。

    那么,让我们就来简要回顾一下由MOSSE衍生而来的一些相关滤波追踪的经典工作:

    KCF

    KCF[2](Kernelized Correlation Filter, TPAMI15, F. Henriques et al.)使用循环移位得到的循环矩阵来采集正负样本,利用循环矩阵在傅里叶空间可对角化的性质,将矩阵的运算转化为元素的点乘,从而降低了运算量,使得算法满足实时性要求。同时,KCF使用多通道HOG特征代替单通道灰度特征,将特征扩展到多通道的非线性特征空间,达到了更高的鲁棒性。KCF的优化方式为加入了正则项的岭回归:

    循环矩阵(图片来源:[2]

    DSST

    DSST[3](Discriminative Scale Space Tracking, BMVC14, M. Danelljan et al.)将关注点更多地放在物体的尺度估计上,将目标的中心平移和目标的尺度变化视作两个独立的问题,在使用HOG特征训练平移相关的CF之外,还使用MOSSE训练了另一个尺度相关的滤波器,用于预测目标尺度的变化。DSST在跟踪的精度和成功率上都有很大提升,只不过速度相对KCF等慢了一些。

    SRDCF & DeepSRDCF

    SRDCF[4](Spatially Regularized Discriminative Correlation Filter, ICCV15, M. Danelljan et al.)在KCF优化目标的基础上加入了空域正则化,增强了模型的判别能力,优化目标变为:

    为了与KCF进行对比,这里使用了与SRDCF原文不同的符号表示。式中的

    与 w 意义并不相同,它是对 w 施加的空间正则化权重。也就是说,某些位置(主要是边界)的滤波器系数会受到惩罚。


    一般DCF(左)与SRDCF(右)的效果对比(图片来源:[4]

    将CN/HOG特征换为深度CNN特征后,Danelljan大神做了大量实验进行对比,发现使用CNN浅层特征明显比HOG那些手工特征效果好。于是把自己ICCV15的SRDCF模型改一改顺手又发(shui)了一篇ICCV15 Workshop……也就是DeepSRDCF[5]


    不同类型特征的效果对比以及使用CNN不同层的效果对比(图片来源:[5]

    C-COT

    C-COT[6](Continuous Convolution Operator Tracker,ECCV16, M. Danelljan et al.)使用一种隐式的插值方式将模型的学习投射到一个连续的空间域中,提出了一种在连续空间域上的卷积算子。C-COT将多种分辨率的深度特征进行了高效的集成,使得模型在各个数据集上的性能都得到了很大的提升。


    C-COT的特征图、卷积核、各层置信图和融合后连续空间的输出置信图(图片来源:[6]

    ECO

    ECO[7](Efficient Convolution Operators, CVPR17, How old is M. Danelljan et al.?)则是在C-COT上的进一步提升。首先ECO降低了C-COT的参数量,对特征提取作了降维简化,提升效率、防止过拟合;第二,使用高斯混合模型生成不同样本组合,简化训练集的同时还增加了多样性;另外,提出了一种高效的模型更新策略,在提升速度的同时还提升了鲁棒性。

    C-COT学习后的卷积核与ECO学习后的卷积核(图片来源:[7]

    现状——孪生网络风生水起

    SiamFC

    目标跟踪领域内,与C-COT同时中了ECCV16的还有一篇称作《Fully-Convolutional Siamese Networks for Object Tracking》[8]的文章,也就是SiameseFC(或SiamFC)——全卷积孪生网络(L. Bertinetto et al.)。SiamFC虽然不是第一个在目标跟踪领域使用孪生网络的(据笔者所知,第一个使用孪生网络解决目标跟踪问题的是SINT[9](Siamese Instance Search for Tracking, CVPR16, R. Tao et al.)),但它可以说是开创了端到端深度学习式相关滤波方法的先河,也为深度学习方法逐渐超越相关滤波方法拉开了序幕。

    说了这么多,这个“全卷积孪生网络”究竟是怎么个样子呢?请看下图:

    SiameseFC(图片来源:[8]

    (好图呀!不仅画得令人赏心悦目,还很清楚地传达了孪生网络的基本思想)图中的 φ 就是CNN编码器,上下两个分支使用的CNN不仅结构相同,参数也是完全共享的(说白了就是同一个网络,并不存在孪生兄弟那样的设定)。z 和 x 分别是要跟踪的目标模版图像(尺寸为127x127)和新的一帧中的搜索范围(尺寸为255x255)。二者经过同样的编码器后得到各自的特征图,对二者进行互相关运算后则会同样得到一个响应图(尺寸为17x17),其每一个像素的值对应了 x 中与 z 等大的一个对应区域出现跟踪目标的概率。

    SiamFC的离线端到端训练使得CNN模型学习了衡量 x 与 z 的相似性的方式,同时由于很好地利用了GPU的算力,使用AlexNet的SiamFC可以达到65FPS的速度,并保持了不错的准确率,尽管跟踪效果还无法匹敌当时的state-of-the-art水平。

    在上一步分的树状图中,SiamFC俨然成为Deep Learning分支的最大子分支的根节点。读者可能会问:问什么前边说到的ECO等等也用了CNN,却不在Deep Learning分支下呢?众所周知,深度学习强调一种“end-to-end”的思想,尽可能地让一个模型去学习从原始输入到最终输出之间的一个完整映射、去寻找一个全局的最优解。只有以这种方式处理跟踪问题的方案才被归入树状图的Deep Learning分支下。左右两大分支(DL和CF)并非对立关系,DL分支下的很多工作(以SiamFC、SiamRPN为代表)都采取了相关滤波的思路,CF分支下的很多工作也使用了CNN作为特征提取器。

    SiamRPN & DaSiamRPN

    就像DSST之前的众多相关滤波跟踪算法一样,SiamFC难以应对物体尺度的变化。SiamRPN[10](CVPR18, B. Li et al.)则借鉴了目标检测领域常用的RPN(Region Proposal Network,区域生成网络)用于预测新图像中目标的尺度。

    SiamRPN在 x 和 z 经过孪生CNN得到各自的特征图后,没有直接对二者进行互相关运算,而是将这两个特征图各自放入RPN部分的两个分支中,每个分支中的两个特征图分别经过一个CNN再进行互相关运算。RPN部分的两个分支分别用于进行目标概率的预测和目标边框的回归,并且同样借鉴了目标检测领域的anchor方法,从而降低了目标边框回归的训练难度。

    SiamRPN(图片来源:[10]

    SiamRPN之后,作者又紧接着提出了改进版——DaSiamRPN[11](ECCV18, Z. Zhu et al.),对训练数据进行了增强以提升模型对同类别物体干扰的判别能力(一般的模型往往着重于前景与背景的判别,而对相似物体的判别性较差)。另外,DaSiamRPN加入了增量学习的Distractor-aware模块,在运行时采样并更新模型的参数。使得模型能更好的迁移到当前视频的域中。

    DaSiamRPN在VOT实验上的性能超越了ECO,同时还能跑到160FPS以上的速度。深度学习单目标跟踪方法可以说得上是“风生水起”。

    困难——卷积层层困难重重

    问题

    DaSiamRPN在ECCV上发表已经是2018年的事情了。这时候,各种花样的深度CNN早已屡见不鲜,在深度上更是有几十层到上百层——然而,DaSiamRPN还在使用只有5层无padding的AlexNet。是不是可以尝试一下把网络主干换成比较深的残差网络来进一步提高跟踪性能(然后水一篇论文)呢?

    笔者还真试了……

    不知各位读者有没有留意SiamFC和SiamRPN中各个特征图的尺寸?在SiamFC中,原尺寸127x127的 z 经过了5层AlexNet后得到的特征图已经小到6x6的尺寸,因为没有padding并且经过了几次池化。照这样下去,再加一个池化层和一个3x3卷积层,特征图就要变成1x1了。显然,想让网络再深一些,padding是不可避免的。

    加了padding,网络的确能够变得很深了(比如说我直接上了YOLOv3的DarkNet-53,甚至还加了特征金字塔),但是新的风暴又出现了——CNN的平移不变性变得极差,目标的定位经常往往出现明显的偏移,模型的对目标的判别能力也不如原版的SiamRPN。满怀信心做实现的笔者看到这样的结果已经准备退学了……

    幸运的是,正值此时,笔者偶然观看了一场CVPR19论文分享会的在线直播,发现原来学界的大佬们也在研究如何把更深的CNN用在目标跟踪上。下面两个登场的工作,分别以不同的方式应对了深度残差网络在目标跟踪问题上的困难。

    方案

    CIR (SiamDW)

    SiamDW[12]的作者认为,较深的卷积神经网络的感受域过大,这降低了特征的判别性和定位的准确性。另外,多层的padding使得孪生网络的学习产生偏移。作者对网络主干的各种性质(padding,stride,感受域大小等)进行了系统性的研究分析,并得出了以下结论:1)孪生网络跟踪器倾向于更小的stride;2)感受域大小应取决于目标模板图像 z 的大小,一般60%到80%最佳;3)stride、感受域大小和输出响应图大小互相有很强的依赖,应当共同考虑;4)全卷积的孪生网络应当尽可能消除 x 和 z 在感知上的不一致性。

    针对上述结论,作者提出了CIR(Cropping-Inside-Residial)模块以取代ResNet中的基本模块,基本做法就是下图中每个块的addition之后的crop操作,除去受padding影响的边缘部位。使用CIResNet-22作为主干的改进版SiamFC和SiamRPN都有了不小的性能提升,只是似乎这样的做法依然无法让网络变得很深?

    各种CIR block(图片来源:[12]

    SiamRPN++

    SiamRPN++[13]是SiamRPN的作者在其基础上的改进。主要改进有以下四点:1)使用了微调版的ResNet-50主干,极大地优化了特征的提取;2)对ResNet-50的3、4、5阶段的特征分别使用RPN进行边框回归与目标定位,并使用带权重的融合方法结合三者的结果;3)使用了depth-wise互相关运算,减少参数量,加速了RPN部分的运算;4)最重要地,提出了一种spatial-aware的采样策略,从而打破了目标跟踪对CNN的严格平移不变性限制。

    作者分析认为,只有无padding的网络才具有严格的平移不变性,而加深CNN又无法避免padding的出现。但是通过在训练样本中人工加入服从均匀分布的随机平移可一定程度上打破这种严格平移不变性限制。从模型的预测结果上来看,如果训练数据在一定范围内服从均匀分布,那么理想情况下跟踪器预测的结果也应该更接近均匀分布。作者通过定量实验发现,加入像素范围为32的随机平移后,最终得到的目标位置热图更接近均匀分布,说明预测的结果更接近实际测试目标的分布情况。


    SiamRPN++(图片来源:[13]

    加入了以上几点改进的SiamRPN++成为了OTB2015、VOT2018、UAV123、LaSOT和TrackingNet上的第一名,基于深度学习的方法终于在跟踪准确度上领先一步了。

    PS:从这几年顶会的VOT论文数量看,基于深度学习方法也确实领先一步了……

    PPS:除了上述的方法之外,基于深度学习的目标跟踪还有不少值得一提的文章,如MDNet[14],TCNN[15],SANet[16],CREST[17],VITAL[18]等等,恕不能一一介绍。

    PPPS:以上的相关滤波方法中大部分工作都包含相当复杂的数学推导,而本文没有过多涉及,一来本人能力有限,二来篇幅也不宜过长。对其推导有兴趣的同学请参考原文。

    多目标跟踪

    问题定义

    与单目标跟踪相比,多目标跟踪的研究进展则缓慢得多,可用的数据集不够丰富,可以参考的开源代码也比较少。因为相对来说实现难度更大,多目标跟踪是一个更工程化的问题,深度学习在该问题上的潜力也尚未被很好地挖掘出来。

    一般提到“视觉目标跟踪”或“VOT”,往往指的是单目标跟踪。尽管看起来SOT(Single Object Tracking)和MOT(Multi Object Tracking)只是目标数量上的差异,但它们通用的方法实际上截然不同。从研究对象上讲,单目标跟踪算法一般是不限类别的,而多目标跟踪一般是仅针对特定类别的物体。从时长上讲,单目标跟踪更多地针对短时间的图像序列,而多目标跟踪一般要处理较长的视频,其中涉及各个目标的出现、遮挡和离开等情况。从实现思路上讲,单目标跟踪更关注如何对目标进行重定位,而常见的多目标跟踪方法往往更多地关注如何根据已检测到的目标进行匹配

    按照初始化方式,常见的多目标跟踪算法一般可分为基于检测的跟踪(Detection-Based Tracking)和无检测的跟踪(Detection-Free Tracking)。DBT要求由一个目标检测器首先将每帧图像中的目标检测出来,而DFT要求已知每个目标首次出现的位置,再对每个目标分别进行跟踪(这一点可以看作是在同一个视频中进行的多个单目标跟踪)。显然,前者的设定更接近实际应用场景,也是学界研究的主流。


    按照初始化方式分类。上:基于检测的跟踪;下:无检测的跟踪(图片来源:[29]

    按照处理方式,多目标跟踪算法又可分为在线跟踪(Online Tracking)和离线跟踪(Offline Tracking)。在线跟踪要求处理每一帧时,决定当前帧的跟踪结果时只能利用当前帧和之前的帧中的信息,也不能根据当前帧的信息来修改之前帧的跟踪结果。离线跟踪则允许利用之后的帧的信息从而获得全局最优解。显然,离线追踪的设定也不太适合实际应用场景,但是以一种“batch”的形式进行的离线跟踪(每次得到若干帧,在这些帧中求全局最优)也是可行的,只是会导致一点延迟。


    按照处理方式分类。上:在线跟踪;下:离线跟踪(图片来源:[29]

    典型方法

    以下是多目标跟踪领域一些比较基础但很典型的工作。

    SORT & DeepSORT

    SORT[19](Simple Online and Realtime Tracking, ICIP16, A. Bewley et al.)是主流的Tracking-by-Detection框架(检测-编码-匹配-更新)的一个雏形,后边的很多工作都有类似的框架。SORT有四个基本组件:目标检测器、状态预测、数据关联和track管理——这也是很多遵循Tracking-by-Detection框架的多目标跟踪算法的基本组件。

    SORT使用VGG16主干的Faster R-CNN作为目标检测器。对于目标的状态,SORT简单地使用中心坐标、面积、长宽比以及它们的变化率对目标进行建模(如下式),而没有利用任何外观信息。SORT使用Kalman滤波器主动地对目标之后的状态进行预测,并将预测的结果与实际检测到的目标边框进行匹配。track与detection的关系被视作二分图,二分图的每一条边的权重由它的两个顶点(分别为一个track和一个detection)的IOU定义。SORT使用匈牙利算法在这个二分图中寻找最优匹配,并为匹配设置最小IOU阈值,以减少错误的匹配数量。

    关于track的管理上,SORT将匹配失败的track保留

    帧,为匹配失败的detection开启新的track并设置其初始状态。

    DeepSORT[20](Simple Online and Realtime Tracking with a Deep Association Metric, ICIP17, N. Wojke, et al.)是SORT作者基于SORT的改进版本,其最大的贡献在于使用了深度CNN提取目标的特征以作为匹配标准。DeepSORT使用Mahalanobis距离作为运动特征的相似度标准,以及余弦距离作为外观特征编码的相似度标准,两种相似度通过加权平均来得到总体的相似度。另外,DeepSORT定义了一种级联式的匹配方法,使得近期活跃度较高的track被优先匹配。

    尽管DeepSORT已经是2017年的算法了,但似乎MOT16使用公开检测的排行榜上占据首位的依然是DeepSORT的复现版…

    IOU Tracker & V-IOU Tracker

    IOU Tracker[21])(AVSS17, E. Bochinski, et al.)的基本思想是:如果帧率足够高、检测效果足够好,前后两帧各个目标边框之间的IoU(Intersection Over Union)即可作为关联的强大依据。在这样的设定下,IOU Tracker不考虑外观信息、不对运动轨迹进行预测、也不使用复杂的匹配算法,直接用贪心的策略为两帧的所有边框之间进行匹配。具体而言,在处理每帧时,对每一个正在跟踪的目标,从检测到的框中取一个与它之前位置之间的IOU最大的一项,若这项IOU大于阈值则认为二者匹配,否则匹配失败。如果某一个tracklet匹配失败,则认为目标离开(是的,甚至不考虑检测器不小心检测失败的可能性),根据它“存活”的时长和置信度决定是否加入“已完成的track”中。如果存在没有匹配到tracklet的检测框,则认为是新出现的目标并为之创建一个新的tracklet。


    IOU Tracker(图片来源:[21]))

    但是!把希望全寄托于目标检测器是不行的。所以作者一年之后又推出了V-IOU Tracker[22])(AVSS18, E. Bochinski, et al.)。一方面,当一个tracklet无法匹配到相应的检测框时,不再简单地认为目标离开了视野,而是在此时启动一个单目标跟踪器来尝试继续跟踪这个目标,直到ttl(Time to Live)时间之后。另一方面,当一个新tracklet被创建时,先启动一个单目标跟踪器尝试在之前的ttl帧中寻找该目标。如果新的tracklet和已完成的track能够通过IOU匹配起来,就将他们合并处理。(如下图中的红色箭头,注意其方向)

    V-IOU Tracker(图片来源:[22]))

    加入了单目标跟踪模块后,设计简单的V-IOU Tracker在MOT Challenge排行榜上也能取得不错的成绩。

    MOT-RNN

    作为使用深度学习解决MOT问题的一次尝试,Anton Milan等大佬提出了使用RNN进行目标状态预测与数据关联的方法——MOT-RNN[23](MOT using RNN, AAAI2017, A. Milan et al.)。这也是第一篇尝试以端到端的方式完成在线多目标跟踪的文章。

    目标的状态预测是一个连续空间的问题,而数据关联又是一个离散空间的问题,如何把这两个问题放到神经网络里做确实是一个让人头疼的问题。尤其是数据关联问题存在着诸多限制,比如需要满足输出的结果不得出现一对多的情况。作者认为,LSTM的非线性变化以及它强大的记忆能力使得这些限制也能通过学习而满足。

    遗憾的是,尽管基于RNN的方法的速度远快于大部分同类方法,它的跟踪效果与先进的方法相比相形见绌。MOT-RNN可以进行进一步完善的点有很多,比如很重要的目标的外观建模,以及如何将检测器也加入可优化的部分。


    左:用于目标状态预测的RNN;右:用于数据关联(匹配)的LSTM(图片来源:[23]

    后续的工作中,陆续出现了一些同样尝试使用神经网络解决多目标跟踪问题的方法(不包括使用CNN做目标检测),如JDT(简称是我瞎起的)[24],DMAN[25],DeepMOT[26],TBA[27],TAMA[28]等等。尽管性能上还与基于传统算法的方法有不小的差距,但其方法的创新值得鼓励与学习。

    一点闲话:实际上,多目标跟踪还有一个更复杂的问题——多相机多目标跟踪(MTMCT,Multi-Target Multi-Camera Tracking)[30]。今年的四月份,笔者还在参加DukeMTMCT CVPR Workshop Challenge。不幸的是,由于某些不可控因素,这场比赛的测试集无法发布,比赛也只能中止。不仅如此,已经公开的DukeMTMC训练集也下线了,甚至[30]的作者Ergys Ristani在Github上的DeepCC代码也被删除。刚从单目标跟踪研究失败的阴影中走出来斗志昂扬精神百倍甚至已经开始拿DukeMTMC训练模型的笔者又产生了卷铺盖退学的想法(捂脸)……DukeMTMC即便拆分开来作为八个单相机多目标跟踪的数据集,也是一个相当高质量、大规模的数据集了。如果类似这样的数据集能够多起来,拥有了数据量加成的多目标跟踪研究又会是怎样一幅景象呢?

    相关资源

    文献

    项目

    数据集与排行

    单目标

    多目标

    专栏

    参考文献

    [1] Bolme, D. S., Beveridge, J. R., Draper, B. A., & Lui, Y. M. (2010, June). Visual object tracking using adaptive correlation filters. In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (pp. 2544-2550). IEEE.
    [2] Henriques, J. F., Caseiro, R., Martins, P., & Batista, J. (2014). High-speed tracking with kernelized correlation filters. IEEE transactions on pattern analysis and machine intelligence, 37(3), 583-596.
    [3] Danelljan, Martin, et al. “Accurate scale estimation for robust visual tracking.” British Machine Vision Conference, Nottingham, September 1-5, 2014. BMVA Press, 2014.
    [4] Danelljan, M., Hager, G., Shahbaz Khan, F., & Felsberg, M. (2015). Learning spatially regularized correlation filters for visual tracking. In Proceedings of the IEEE international conference on computer vision (pp. 4310-4318).
    [5] Danelljan, Martin, et al. “Convolutional features for correlation filter based visual tracking.” Proceedings of the IEEE International Conference on Computer Vision Workshops. 2015.
    [6] Danelljan, Martin, et al. “Beyond correlation filters: Learning continuous convolution operators for visual tracking.” European Conference on Computer Vision. Springer, Cham, 2016.
    [7] Danelljan, Martin, et al. “Eco: Efficient convolution operators for tracking.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
    [8] Bertinetto, L., Valmadre, J., Henriques, J. F., Vedaldi, A., & Torr, P. H. (2016, October). Fully-convolutional siamese networks for object tracking. In European conference on computer vision (pp. 850-865). Springer, Cham.
    [9] Tao, Ran, Efstratios Gavves, and Arnold WM Smeulders. “Siamese instance search for tracking.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
    [10] Li, Bo, et al. “High performance visual tracking with siamese region proposal network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
    [11] Zhu, Zheng, et al. “Distractor-aware siamese networks for visual object tracking.” Proceedings of the European Conference on Computer Vision (ECCV). 2018.
    [12] Zhang, Zhipeng, and Houwen Peng. “Deeper and wider siamese networks for real-time visual tracking.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
    [13] Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., & Yan, J. (2018). SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks. arXiv preprint arXiv:1812.11703.
    [14] Nam, Hyeonseob, and Bohyung Han. “Learning multi-domain convolutional neural networks for visual tracking.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
    [15] Nam, Hyeonseob, Mooyeol Baek, and Bohyung Han. “Modeling and propagating cnns in a tree structure for visual tracking.” arXiv preprint arXiv:1608.07242 (2016).
    [16] Fan, Heng, and Haibin Ling. “Sanet: Structure-aware network for visual tracking.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.
    [17] Song, Yibing, et al. “CREST: Convolutional residual learning for visual tracking.” Proceedings of the IEEE International Conference on Computer Vision. 2017.
    [18] Song, Yibing, et al. “VITAL: Visual tracking via adversarial learning.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
    [19] Bewley, Alex, et al. “Simple online and realtime tracking.” 2016 IEEE International Conference on Image Processing (ICIP). IEEE, 2016.
    [20] Wojke, Nicolai, Alex Bewley, and Dietrich Paulus. “Simple online and realtime tracking with a deep association metric.” 2017 IEEE International Conference on Image Processing (ICIP). IEEE, 2017.
    [21] Bochinski, Erik, Volker Eiselein, and Thomas Sikora. “High-speed tracking-by-detection without using image information.” 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2017.
    [22] Bochinski, Erik, Tobias Senst, and Thomas Sikora. “Extending IOU based multi-object tracking by visual information.” 2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2018.
    [23] Milan, Anton, et al. “Online multi-target tracking using recurrent neural networks.” Thirty-First AAAI Conference on Artificial Intelligence. 2017.
    [24] Kieritz, Hilke, Wolfgang Hubner, and Michael Arens. “Joint detection and online multi-object tracking.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018.
    [25] Zhu, Ji, et al. “Online multi-object tracking with dual matching attention networks.” Proceedings of the European Conference on Computer Vision (ECCV). 2018.
    [26] Xu, Yihong, et al. “DeepMOT: A Differentiable Framework for Training Multiple Object Trackers.” arXiv preprint arXiv:1906.06618 (2019).
    [27] He, Zhen, et al. “Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
    [28] Yoon, Young-Chul, et al. “Online Multiple Pedestrian Tracking using Deep Temporal Appearance Matching Association.” arXiv preprint arXiv:1907.00831 (2019).
    [29] Luo, Wenhan, et al. “Multiple object tracking: A literature review.” arXiv preprint arXiv:1409.7618 (2014).
    [30] Ristani, Ergys, et al. “Performance measures and a data set for multi-target, multi-camera tracking.” European Conference on Computer Vision. Springer, Cham, 2016.

    展开全文
  • 结合灰色预测模型和粒子滤波, 提出一种新的视觉目标跟踪算法. 由于粒子滤波未考虑先验信息对建议分 布产生的指导作用, 不能很好地逼近后验概率分布, 对此, 采用历史状态估计序列作为先验信息, 建立该序列的灰色...
  • 针对表观发生剧烈变化时的目标跟踪问题, 提出一种新的基于自适应分块表观模型的视觉目标跟踪算法. 将目标表观描述为一组具有内在空间上几何结构关系约束的局部图像块, 在跟踪过程中通过自动添加和删除局部图像块适应...
  • 针对这一难题,提出了一种新的基于前景分割的目标跟踪算法。算法通过引入条件随机场(CRF)模型对跟踪区域和非跟踪区域的时空关系进行建模,实现对图像序列中像素点的标记,标记为跟踪目标或背景,并使用在线学习方法,根据...
  • 学习目标聚焦卷积回归模型进行视觉目标跟踪 摘要:判别相关过滤器(DCF)最近已在跟踪社区中得到广泛使用。 基于DCF的跟踪器利用从图像块循环移位生成的样本来训练岭回归模型,并使用由相关滤波器生成的响应图来估计...
  • 基于视觉目标跟踪具有广泛应用价值,在研究生期间阅读的37篇前言论文,打包下载
  • 目标整体相关匹配算法和目标各子块相关匹配作表决的算法相结合,有效解决了运动目标被遮挡的跟踪问题.目标被遮挡,表现为某些子...实验结果表明, 采用的两种算法互为补充,对解决遮挡情况下目标视觉跟踪是有效的.</p>
  • 视觉目标跟踪漫谈:从原理到应用

    千次阅读 多人点赞 2020-07-03 13:46:30
    简介:视觉目标跟踪 (visual object tracking) 是计算机视觉 (computer vision) 领域的一个重要研究问题。通常来说,视觉目标跟踪是在一个视频的后续帧中找到在当前帧中定义的感兴趣物体 (object of interest) 的...
    简介:视觉目标跟踪 (visual object tracking) 是计算机视觉 (computer vision) 领域的一个重要研究问题。通常来说,视觉目标跟踪是在一个视频的后续帧中找到在当前帧中定义的感兴趣物体 (object of interest) 的过程,主要应用于一些需要目标空间位置以及外观(形状、颜色等)特性的视觉应用中。本文旨在对跟踪做一个尽量全面、细致和具有时效性的综述,研究跟踪的定义、应用、架构、算法以及评估等方面的内容。联合作者:图希,恬宁,崇北,昆虚,明烁。

    image.png

    一 什么是视觉目标跟踪

    视觉目标跟踪的定义

    在计算机视觉领域中并没有对视觉目标跟踪(简称跟踪,下同)的唯一定义。通常来说,跟踪的目标是视频帧或图像中的某个区域或物体,不需要其语义信息(类别等),此概念被形象地描述为“万物跟踪”。同时,也存在一些特例,通常被应用在一些特定场景中对已知类型物体的跟踪,例如工厂流水线监控中对某些特定产品的跟踪(如零部件等)。

    很多学者对跟踪有着不同的阐释,包括:“跟踪是视频序列中识别感兴趣区域 (region of interest) 的过程”[1],或者“给定目标在视频中某一帧的状态(位置、尺寸等),跟踪是估计 (estimate) 该目标在后续帧中的状态”[2]等。这些定义看似大相径庭,但其实有很多共同点。通过提取这些共同点,我们将跟踪问题定义为:

    跟踪是在一个视频的后续帧中找到在当前帧中定义的感兴趣物体 (object of interest) 的过程。

    可以发现,上述定义主要关注跟踪的三方面问题,即“找到”、“感兴趣物体”、和“后续帧”。注意,这里的当前帧可以是视频中的任意一帧。通常来说,跟踪是从视频的第二帧开始的,第一帧用来标记目标的初始位置 (ground truth)。下面,我们利用博尔特参加男子百米短跑的例子来解释这三方面问题。

    640.gif
    图1. 博尔特参加男子百米短跑的视频截图[3]

    视觉目标跟踪的基本原理

    “找到”:如何locate博尔特?

    假设在视频上一帧我们找到了博尔特所在的位置,我们要做的是在当前帧中继续找到博尔特所在的位置。如前所述,视觉是跟踪问题(视觉目标跟踪)的限定条件,其带来了可以利用的性质。在这里,我们可以利用的de facto rules是:在同一段视频中,相同的物体在前后两帧中的尺寸和空间位置不会发生巨大的变化[4]。比如我们可以做出如下判断:博尔特在当前帧中的空间位置大概率会在跑道中,而几乎不可能在旁边的草坪内。也就是说,如果我们想知道博尔特在当前帧中的空间位置,我们只需要在跑道中生成一些候选位置,然后在其中进行寻找即可。上述过程引出了跟踪中一个重要的子问题,即candidate generation,通常被表述为候选框生成。

    “感兴趣物体”:如何shape博尔特?

    博尔特就是图像中个子最高,并且穿着黄色和绿色比赛服的人。但是,我们忽略了一个问题,就是我们对于博尔特的“定义”其实已经包含了很多高度抽象的信息,例如个子最高,还有黄色和绿色的比赛服。在计算机视觉领域中,我们通常将这些高度抽象的信息称之为特征。对于计算机而言,如果没有特征,博尔特和草坪、跑道、或者图像中其他对于人类有意义的物体没有任何区别。因此,想让计算机对博尔特进行跟踪,特征表达/提取 (feature representation/extraction) 是非常重要的一环,也是跟踪中第二个重要的子问题。

    “后续帧”:如何distinguish博尔特 (from others) ?

    在这里,我们将“后续帧”关注的问题定义为如何利用前一帧中的信息在当前帧中鉴别 (distinguish) 目标。我们不仅需要在“后续帧”中的每一帧都能完成对目标的跟踪,还强调连续帧之间的上下文关系对于跟踪的意义。直观理解,该问题的答案非常简单:在当前帧中找到最像上一帧中的跟踪结果的物体即可。这就引出了跟踪中第三个重要的子问题:决策 (decision making)。决策是跟踪中最重要的一个子问题,也是绝大多数研究人员最为关注的问题。通常来说,决策主要解决匹配问题,即将当前帧中可能是目标的物体和上一帧的跟踪结果进行匹配,然后选择相似度最大的物体作为当前帧的跟踪结果。

    联系

    在上述三个小节中我们分别介绍了跟踪基本原理中的三个子问题:候选框生成、特征表达/提取、及决策。需要注意的是,这三个子问题并非彼此独立。有时候,决策问题的解决方案会包含更为精确的候选框生成和/或更为抽象的特征提取,利用端到端 (end-to-end) 的思想解决跟踪问题,来提高跟踪系统和算法的性能。这在近几年流行的基于深度学习的跟踪算法中非常常见[1]。

    视觉目标跟踪的应用

    从某种意义来说,在回答“视觉目标跟踪有哪些应用”的问题之前,我们应该先讨论学术研究方法论中“为什么”的问题,即“为什么要做视觉目标跟踪”。

    跟踪在计算机视觉科学的经典应用领域,包括安防领域(车辆跟踪、车牌识别等)、监控领域(人脸识别、步态识别等)、巡检领域(无人机追踪、机器人导航等)、以及新兴的智慧生活(人机交互、VR/AR等)、智慧城市(流量监测等)、以及智慧工业(远程医疗等)等。跟踪问题的主要应用可以总结为:

    跟踪主要应用于对视频或连续有语义关联的图像中任意目标的空间位置、形状和尺寸的获知。

    作为检测算法的补充,其可以在视频或连续有语义关联的图像中提供目标的空间位置,降低整个系统的复杂度(例如检测仅应用于视频第一帧识别出目标,以及后续帧中的某些帧来确定目标位置,然后在其余帧中应用跟踪确定目标位置)。

    二 如何进行视觉目标跟踪

    视觉目标跟踪的系统架构

    候选框生成、特征表达/提取、和决策构成了一条完整的逻辑链路。具体来说,对于视频中的每一帧(通常不包括第一帧),跟踪的系统流程可以用图3中的架构来表示:

    image.png

    如图所示,在跟踪系统中,上一帧(含跟踪结果,如图中input frame)和当前帧会被作为系统输入,然后分别经过运动模型 (motion model)、特征模型 (feature model)、和观测模型 (observation model),最终作为当前帧对目标位置的预测 (final prediction) 输出。其中,候选框生成、特征表达/提取、和决策三个子问题分别在上述三个模型中被解决,其输入与输出的对应关系如表1。

    image.png

    注意,图3中的跟踪系统架构应用了假设检验 (hypothesis testing) 模型。该模型是统计推断中的常用方法,其基本原理是先对系统的特征做出某种假设,然后通过研究抽样的统计分布,判断应该接受还是拒绝此假设。该模型能够很好地应用于跟踪问题,即假设当前帧的某个候选框是预测目标,然后通过特征表达/提取和决策,来判断该候选框是否可以作为当前帧目标位置的合理预测。

    运动模型 — where?

    1)目标表达形式

    目标在当前帧中的大概位置是运动模型中主要被解决的问题,即候选框生成 (where)。在讨论如何生成的问题之前,我们首先需要明确的是什么是候选框。候选框是对于目标包围盒 (bounding box) 的假设 (hypothesis)。此处的表达与特征模型中的特征表达有所区别,其关注的主要是如何在视频帧或图像中“描绘”目标。常见的表达形式如图4所示。

    image.png

    如图所示,目标可以被矩形框 (4c)、骨架 (4f)、或轮廓 (4h) 等不同形式所表达。其中,广泛被计算机视觉研究中所采用的是如4(c)中的矩形框(即bounding box,一译包围盒)表达。这种表达形式的优点包括易生成(如最小外接矩形)、易表达(如左上角+右下角坐标,或中心点坐标+宽高)、易评估(如IOU (intersection over union),一译交并比)等。详细的信息见[5]。

    2)De facto rules:尺寸变化小,位置移动慢

    在确定好目标的表达形式(候选框)后,接下来我们需要关注如何生成候选框。在很多学术文章中,深度学习训练过程中的正负样本生成有时也被称作候选框生成。这种候选框生成和我们在该小节中讨论的候选框生成是两个概念。下面介绍两种候选框生成分别是什么,以及如何区分,避免混淆。

    • 推理过程:即图3中的系统流程,用于预测当前帧的目标位置,任何跟踪算法都需要。在该过程中,运动模型生成候选框,然后经过特征模型进行特征表达/提取,将含有特征的候选框输入观测模型进行决策(对目标位置的预测)。如视觉目标跟踪的定义一节所述,de facto rules 是在同一段视频中,相同的目标在前后两帧中的尺寸和空间位置不会发生巨大的变化。基于此,我们可以大大减少候选框的数量和种类,即我们只需要在上一帧预测的目标位置附近生成和其尺寸近似的候选框,从而提高整个跟踪系统的效率。
    • 训练过程:通常在基于判别式方法的跟踪算法中需要,属于跟踪系统学习如何区分目标和非目标的过程,将在视觉目标跟踪的算法分类一节中详述。在该过程中,所谓的候选框生成应该被称作“正负样本生成”。在这里,正样本可以近似地理解为目标,负样本可以近似地理解为非目标的干扰项,例如背景或其他像目标但不是目标的物体。为了提高该类算法的跟踪系统对于正负样本的判别能力,在生成负样本时通常会在整个图像中寻找,而不仅限于上一帧预测的目标位置附近。

    总结来说,候选框生成被应用在推理过程,用来生成当前帧目标的潜在位置;正负样本生成被应用在基于判别式方法的跟踪算法的训练过程,用来生成正负样本训练跟踪系统,使得系统习得区分目标与分目标的能力。

    3)运动模型系统架构与分类

    图5示出了运动模型的系统架构以及如何得到候选框的方法分类。如图所示,前一帧(第n帧)中预测目标的位置被输入模型中,输出当前帧(第n+1帧)的候选框。这些候选框可能有位置变化、尺度变化、和旋转等,如图中绿色和橙色虚线框所示。

    image.png

    在运动模型中,主要的候选框生成方法有如下三种:

    a) 概率采样 (probabilistic sampling)

    通过仿射变换生成候选框。具体来说,假设输入的上一帧预测目标的位置矩形框坐标为image.png、仿射变换的参数矩阵为image.png、以及输出的(一个)候选框的坐标为image.png,则

    image.png

    其中,image.png中的参数包括候选框位置变换、尺度变换、旋转变换、和长宽比变换等信息,仿射变换的示例如图5所示。这里,概率体现在上述参数都是符合某种概率分布(通常是高斯分布)的随机变量,而采样则体现在生成不同数量的候选框。

    b) 滑窗 (sliding window)

    如图6所示,以某个形状和大小的结构元素(形象地被称之为窗)在当前帧中按一定的空间间隔移动,每次移动后覆盖的图像中的相应像素即为生成的候选框。通常来说,通过此种方法生成的候选框和前一帧的矩形框相比仅有位置变换,其他变化(如旋转变换)需要进行额外的处理。

    image.png

    c) 循环移位 (circulant shift)

    如图7所示,如果我们将上一帧预测的目标位置的矩形框中的像素按照某种排列变成图中base sample所示,那么每次右移一个像素,即可生成一个候选框的对应排列。通过生成该排列的反变换,即可得到一个候选框。通常来说,通过此种方法生成的候选框和前一帧的矩形框相比仅有位置变换(如旋转变换),其他变化需要进行额外的处理。值得强调的是,循环移位是滑窗的一个特例,但是其在基于相关滤波的跟踪算法中与快速傅里叶变换 (fast Fourier transformation) 结合能够极大地提高算法效率,使其无需再使用传统的滑窗操作生成候选框,因此在此被单列出来。

    image.png

    特征模型 — how look like?

    1)什么是图像特征

    对于人类来说,图像特征是对于图像的直观感受。对于计算机来说,图像特征是图像内的一些区域/整个图像和其他区域/其他图像的差异。常用的图像特征包括颜色特征、形状特征、空间特征、纹理特征、以及在深度学习中通过卷积神经网络得到的深度特征等。博尔特的黄色和绿色的比赛服即属于颜色特征,而个子高则结合了空间特征和纹理特征。通常来说,特征越“深”(抽象且不直观的的特征,如深度特征),对目标的判别能力越好;反之,特征越“浅”(具体且直观的特征,如颜色等),对目标的空间位置信息保留越好。因此,特征表达/提取通常需要在两者之间做权衡,才能达到更好的跟踪效果。

    2)什么是图像特征表达

    了解什么是图像特征之后,特征表达/提取要解决的问题是如何来描述这些特征,即用计算机能够理解的语言来描述这些特征的数学特性的一个或多个维度。常用的特征表达/提取方法包括朴素方法(naive,如像素值)、统计方法(statistics,如直方图)、和变换(transformation,如像素值的梯度)等。

    特征和特征表达被统称为特征模型。特征模型可以对从运动模型中得到的候选框进行分析,得到相应的候选框特征表达/提取,如图8所示。

    image.png

    3)特征模型的分类

    图9示出了如何得到对特征进行表达/提取的方法分类。可以看到的是,在应用卷积神经网络 (CNN) 得到深度特征 (deep) 之前,手工的 (hand-crafted) 特征表达/提取方法是跟踪问题中对于图像特征进行处理的主流方法,其包括上述提到的各种特征和表达方式。在诸多特征和表达方式中,应用最多的是颜色特征和梯度直方图。颜色特征比较容易理解,其不仅符合人类对于图像的直观理解,同时也是最简单的计算机表征图像的方法,即像素值。梯度直方图是关于梯度的直方图,其中梯度是图像像素值在某个特定空间方向上的变化,例如水平相邻像素之间的像素值差;而直方图是一种常用的数据分布的图像表示,可以直观地表示出一组数据在其取值范围内的数量变化。请各位同学参考[7]获取更多关于图像特征的信息。目前,基于深度学习的方法逐渐成为跟踪问题研究的主流,其通过卷积神经网络 (CNN) 得到的深度特征 (deep) 极大地提高了跟踪算法对目标的判别能力,所达到的性能也超过应用手工特征的跟踪算法。

    image.png

    观测模型 — which?

    1)如何做决策

    在观测模型中,如何在诸多候选框中选出一个作为我们对目标位置在当前帧的预测是在观测模型需要解决的主要问题,即做决策(“哪一个”)。直观理解,我们只需要在当前帧的候选框中找出最“像”前一帧的预测目标的候选框就可以,然而最“像”并不是仅有一种定义。

    通常来说,在计算机视觉领域中解决最“像”问题可以被归类为匹配问题,即在候选框中找到和前一帧目标最为匹配的那个。匹配问题是整个跟踪问题的核心,也是绝大多数跟踪算法解决的主要的问题,其解决方案的效果直接影响整个跟踪算法的性能。有时候,即使在候选框生成和特征表达/提取方面做得不够好,例如候选框的形状和尺寸与实际有出入,或提取的特征的判别程度不高,优秀的匹配算法也可以在一定程度上弥补前两个模型中存在的不足,维持跟踪算法的整体性能。

    2)如何做匹配

    前述中提到的最“像”或匹配问题在本质上是一个相似度度量 (similarity measurement) 问题。在解决相似度问题的时候,我们需要一个衡量机制,来计算两个相比较的个体的相似度。在跟踪问题中,被比较的个体通常是候选框和前一帧的预测结果(或者是ground truth),而衡量机制可以被抽象成距离 (distance)。这里的距离不仅仅是空间距离,即框与框之间在图像中相隔多少个像素,还包括两个概率分布的距离。

    由于空间距离相对好理解,我们在这里仅对概率分布距离稍作解释:每一帧的跟踪结果是一个预测值,即每一个候选框是目标的概率。如果综合所有候选框,就可以构成一个概率分布。从概率分布的角度理解匹配问题,跟踪问题就转换成在当前帧寻找和上一帧的候选框概率分布“最接近”的一组候选框分布,该“最接近”即是概率分布距离。常用的空间距离有Minkowski distance(Manhattan distance和Euclidean distance是其特殊情况),常用的概率分布距离有Kullback–Leibler (KL) 散度、Bhattacharyya distance、交叉熵、以及Wasserstein distance等。参考[8]。

    3)观测模型系统架构与分类

    图10示出了观测模型的系统架构。如图所示,前一帧(第n帧)中预测的目标位置、当前帧(第n+1帧)的候选框、和候选框的特征被输入模型,输出当前帧(第n+1帧)的预测结果(目标位置)。这些候选框可能有位置变化、尺度变化、和旋转等,如图中绿色和橙色虚线框所示。

    image.png

    图11示出了观测模型的模块拆解和分类。如图所示,观测模型的核心模块是匹配 (match)。对于匹配方法的分类,业界的主流观点是:生成式方法 (generative) 和判别式方法 (discriminative)[1, 2, 4, 9]。这两种方法的主要区别在于是否有背景信息的引入。具体来说,生成式方法使用数学工具拟合目标的图像域特征,并在当前帧寻找拟合结果最佳(通常是拟合后重建误差最小的)的候选框。而判别式方法则是不同的思路,其将目标视为前景,将不包含目标的区域视为背景,从而将匹配问题转换成了将目标从背景中分离的问题。

    对比起来,判别式方法具有更好的判别能力,即将目标和其他干扰项区分开的能力,这也是这一类匹配方法得名的由来。作为上述观点的论据支撑,应用判别式方法的跟踪算法的性能已经大幅度超越应用生成式方法的跟踪算法,成为学术界研究的主流方向[9]。总结来说,生成式方法把跟踪问题建模成拟合或多分类问题,而判别式方法把跟踪问题定义为二分类问题。

    image.png

    此外,在图11中我们注意到还有两个虚线框示出的模块,分别代表特征表达/提取 (feature representation/extraction) 和更新 (update)。在这里,虚线表示这两个步骤不是必须被执行的。对于有的算法而言,通过特征模型得到的特征会被进一步抽象,来获取目标更深层次的特征信息,然后再被送进匹配模块执行匹配算法。同时,更新的步骤也非必须的,其存在的意义是获得更为准确的预测结果。

    具体来说,匹配算法得到了一系列的参数,应用这些参数即可对当前帧的目标位置进行预测。如果在后续所有帧的预测过程中都应用这些参数,可能会出现的结果是预测趋向不准确,最终导致跟踪的失败。其可能的原因包括累积误差、外因(如遮挡、光照变化)、以及内因(如目标外观变化、快速运动)等。如果引入更新模块,在每若干帧之后根据之前的预测结果更新匹配算法的参数,则可以减小误差,提高跟踪的准确性。

    视觉目标跟踪的算法分类

    跟踪算法根据其观测模型被分为两大类:生成式方法 (generative) 和判别式方法 (discriminative)。值得注意的是,在这里我们强调分类的依据是观测模型,是为了将整个跟踪系统架构中的不同模型解耦合。具体来说,即使两个算法分别应用了生成式方法和判别式方法作为相似度匹配的解决方案,其可能都应用了相同的特征,例如颜色直方图。如果我们将应用在跟踪算法中的特征作为分类的依据,这两个算法应该被归为一类。很显然,这是另一种算法分类的角度,但是却存在将两个大相径庭的算法归为一类的可能性。

    在这里,我们并非否认按照特征分类的合理性,而是将关注的重点放在算法本质上的区别,即其观测模型。然而,大多数跟踪算法的综述文章都直接将跟踪算法简单的分为生成式和判别式,并没有强调这仅仅是其观测模型,让人产生为什么应用了相同特征的算法会被归为不同的类别的疑问。这种不明确对于刚开始接触跟踪领域的同学是不友好的。

    在明确了我们分类的前提之后,图12示出了我们对于跟踪算法的分类以及各分类下的一些经典算法。值得注意的是,在这里我们仅将分类细化到第二层,即将生成式和判别式做进一步分类。根据不同算法的具体细节,图中的分类可以继续深化,但是这有别于此文的宗旨,即对跟踪问题的系统性的概括。

    image.png

    关于生成式方法,其核心思想即衡量前一帧的预测目标与当前帧候选框的相似度,然后选择最为相似的候选框作为当前帧的跟踪结果(即预测目标在当前帧的位置)。生成式方法被进一步分成下述三类:

    1)空间距离 (spatial distance)

    即用空间距离衡量相似度的解决方案,通常利用最优化理论将跟踪问题转换成空间距离最小化问题。利用此方法的经典算法包括IVT (Incremental learning Visual Tracking) [10] 和ASLA(Adaptive Structural Local sparse Appearance model tracking) [11]。其算法的核心思想是:计算当前帧候选框的像素灰度值与上一帧预测目标的像素灰度值之间的Euclidean distance,然后取距离最小的候选框作为当前帧的预测目标。在特征提取时应用了奇异值分解等技术来减小计算复杂度。

    2)概率分布距离 (probabilistic distribution distance)

    即用概率分布距离衡量相似度的解决方案,通常利用最优化理论将跟踪问题转换成概率分布距离最小化问题。利用此方法的经典算法包括CBP (Color-Based Probabilistic) [12]和FRAG (robust FRAGments-based) [13]。其算法的核心思想是:计算当前帧候选框的颜色直方图分布与上一帧预测目标的颜色直方图分布之间的Bhattacharyya distance,然后取距离最小的候选框作为当前帧的预测目标。

    3)综合 (combinatorial)

    这部分解决方案以MeanShift[14]和CamShift算法为代表,其模糊了对于相似度匹配的距离衡量,甚至没有显式地候选框生成过程,而是借鉴了机器学习中meanshift聚类算法的思想,在每一帧中利用上一帧预测目标的颜色直方图分布,计算该帧中相应位置的像素的颜色直方图分布,然后进行聚类得到其分布的均值,其对应的像素位置是该帧中预测目标的中心位置,然后加上候选框宽高等信息即可得到当前帧预测目标的空间位置。在MeanShift算法中,宽高信息是固定的,因此其无法应对目标尺度和旋转变化,而CamShift通过将图像矩引入相似度匹配[7],得到目标尺度和旋转信息,进一步提高了算法的性能。

    如前所述,判别式方法侧重于将目标视作前景,然后将其从其它被视作背景的内容中分离出来。从某种程度上来说,判别式方法应用了分类算法的思想,将跟踪问题转换成二分类问题。众所周知,基于经典机器学习(即不包含深度学习的机器学习)和深度学习的算法对于分类问题有着非常出色的表现,因此,这些算法的思想被引入跟踪问题的解决方案是非常自然的事情。此外,判别式方法的本质仍然是解决匹配问题,而一种解决匹配问题非常有效的方法就是相关 (correlation),即用一个模板与输入进行相关操作,通过得到的响应(输出)来判断该输入与模板的相似程度,即相关性。因此,基于相关操作的算法也同样被引入跟踪问题的解决方案。判别式方法被进一步分成下述三类:

    1)经典机器学习方法 (machine learning)

    应用机器学习算法的思想将目标作为前景从背景中提取出来的方法。利用此方法的经典算法包括STRUCK (STRUCtured output tracking with Kernels) [15]和Tracking-Learning-Detection (TLD) [16]。STRUCK和 TLD算法分别采用经典机器学习算法中的支持向量机 (support vector machine) 和集成学习 (ensemble learning) 进行分类,并采取了一系列优化方法来提高算法的性能。

    2)相关滤波方法 (correlation filter)

    应用相关操作计算候选框与预测目标匹配度的方法。

    3)深度学习方法 (deep learning)

    上述提到的应用深度学习算法的思想将目标作为前景从背景中提取出来的方法。

    更多优秀的跟踪算法参见[1, 2, 4, 5, 9, 23]。我们将上述提到的算法总结在表2中,包括了被应用在这些算法中的运动模型、特征模型、和观测模型。表2体现了我们对整个跟踪系统架构中的不同模型的解耦合。通过表2我们可以清晰地了解每个算法在不同模型中应用了哪些方法,这有助于我们从不同的角度对算法进行分类,提炼同类算法中的共同点,以及对不同类算法进行有效地区分和对比。

    image.png

    下图展示了[17]对于跟踪算法的总结:

    image.png

    三 如何评估视觉目标跟踪性能

    评估指标

    在前面两章讨论的内容中,我们已经在不经意间用到了一些评估跟踪算法性能的指标,例如精度,速度等。在计算机视觉领域中,最常用的衡量指标是精确率 (precision) 、召回率 (recall)、以及F值 (F-score)、帧率 (FPS) 等。在此,我们简单对前两个指标进行介绍:这两个指标源自于统计学,关注的是对正负样本分类的情况。简单来说,精确率被定义为所有被预测成正样本的样本中真实的正样本比率,而召回率被定义为所有真实的正样本中被预测成正样本的样本比率。

    在跟踪问题中,也有类似的定义。跟踪系统和算法广泛应用矩形框 (bounding box) 的原因之一就是易评估,其评估的核心就是交并比,即IOU (intersection over union)。IOU有如下定义:

    image.png

    较大的IOU值从一定程度上反应了两个进行比较的矩形框贴合程度较高。如果我们用预测目标的矩形框和ground truth的矩形框计算IOU,我们就可以知道跟踪算法的效果:IOU越大,表示跟踪的效果越好。

    VOT (visual object tracking) 竞赛中从2013年开始举办,目前已经发展成评估跟踪算法的主流标准,VOT中比较重要的两个指标是accuracy和robustness。实际上,竞赛中采用的第一指标是EAO,即expected accuracy overlap,是对accuracy的一种加权求和,其本质仍然是accuracy。Accuracy有如下定义:

    image.png

    即计算每一帧预测目标的矩形框与ground truth的矩形框之间的IOU,然后对所有帧求和再做平均。其中N是总帧数,可以是一段视频的总帧数,也可以是多段视频,或者多段视频重复测试多次。Robustness有如下定义:

    image.png

    即跟踪失败的帧数与总帧数的比值,其中跟踪失败定义为当前帧预测目标的矩形框与ground truth的矩形框的IOU为0。

    上述两个指标从两个方面体现了跟踪算法的性能:accuracy体现了当跟踪成功时,算法的精确度有多高,即找准目标的位置的概率,侧重算法的精确性;robustness则体现了算法找到目标位置的概率,侧重算法的鲁棒性。有了这两个指标,不同的算法就可以在同一套衡量标准下进行比较。

    评估数据集

    除了评估指标以外,另一个对于跟踪算法评估非常重要的部分就是数据集。VOT竞赛不仅提供了评估指标,其本身的数据集也是评估跟踪算法的一个权威的数据集。除此之外,常用的评估数据集还包括OTB [2]、UAV123 [18]、以及GOT-10K [19] 等。不同的数据集对于评估指标有着不同的定义,但是其思想都和评估指标一节中提到的accuracy和robustness有着一定的共同点:即全面考虑算法的精确性和鲁棒性。

    除了不同的评估指标,不同的数据集之间通常也有共同点,同时也是衡量一个数据集是否适合作为评估数据集的标准:视频数量充足、目标类别丰富、以及标注信息准确。如果没有充足的视频和足够丰富的目标类别,算法的性能很容易发生过拟合,即在少量的视频和/或类别中表现很好,但是在其他视频和/或类别中表现欠佳,因此无法准确地衡量出算法的真实性能。标注信息的准确性则不言而喻,它直接影响到评估的正确性。对于其他类型的数据集,例如作为训练算法使用的数据集,包括ImageNet [20]、COCO [21]等,如果能够满足上述条件,也可以拓展成为评估数据集。

    评估示例

    我们以最新的2019年VOT 竞赛 (VOT challenge 2019) 作为跟踪算法评估的示例。表3展示了竞赛的节选结果 [9]。通用的竞赛流程是:竞赛组委会开放报名通道,参赛者可以通过该通道提交算法代码,然后组委会统一收集代码,再评估数据集上进行测试,最后将竞赛结果以报告或白皮书的形式公布。

    image.png

    表3中的体现了参赛算法在该年的评估数据集上取得的结果,包括了EAO、accuracy、和robustness等指标。通常,竞赛结果是依据EAO进行排名的,不过结果中也会标注各单项指标的前三名,如表3中用圆圈标记的数字。

    四 结语

    目前,基于深度学习的算法逐渐成为视觉目标跟踪研究的主流。除了文中介绍的算法之外,无监督学习、元学习 (meta learning)、和其他人工智能领域的前沿算法也被引入视觉目标跟踪的学术研究。此外,基于深度学习的视觉目标跟踪算法也逐渐被应用在工业界,通过包括模型压缩在内的优化方法有效地降低其算法复杂度,从而达到并超越目前适合于实际计算机视觉应用的跟踪算法的性能。

    参考

    [1] Fiaz, Mustansar, et al. "Handcrafted and deep trackers: Recent visual object tracking approaches and trends." ACM Computing Surveys (CSUR) 52.2 (2019): 1-44.
    [2] Wu, Yi, Jongwoo Lim, and Ming-Hsuan Yang. "Object tracking benchmark." IEEE Transactions on Pattern Analysis and Machine Intelligence 37.9 (2015): 1834-1848.
    [3] VOT2018 dataset, http://www.votchallenge.net/vot2018/dataset.html.
    [4] Wang, Naiyan, et al. "Understanding and diagnosing visual tracking systems." Proceedings of the IEEE international conference on computer vision. 2015.
    [5] Yilmaz, Alper, Omar Javed, and Mubarak Shah. "Object tracking: A survey." ACM computing surveys (CSUR) 38.4 (2006): 13-es.
    [6] Henriques, João F., et al. "High-speed tracking with kernelized correlation filters." IEEE transactions on pattern analysis and machine intelligence 37.3 (2014): 583-596.
    [7] Gonzalez, Rafael C., Richard E. Woods, and Steven L. Eddins. Digital image processing using MATLAB. Pearson Education India, 2004.
    [8] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT Press, 2016.
    [9] Li, Xi, et al. "A survey of appearance models in visual object tracking." ACM transactions on Intelligent Systems and Technology (TIST) 4.4 (2013): 1-48.
    [10] Ross, David A., et al. "Incremental learning for robust visual tracking." International journal of computer vision 77.1-3 (2008): 125-141.
    [11] Jia, Xu, Huchuan Lu, and Ming-Hsuan Yang. "Visual tracking via adaptive structural local sparse appearance model." 2012 IEEE Conference on computer vision and pattern recognition. IEEE, 2012.
    [12] Pérez, Patrick, et al. "Color-based probabilistic tracking." European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2002.
    [13] Adam, Amit, Ehud Rivlin, and Ilan Shimshoni. "Robust fragments-based tracking using the integral histogram." 2006 IEEE Computer society conference on computer vision and pattern recognition (CVPR'06). Vol. 1. IEEE, 2006.
    [14] Comaniciu, Dorin, Visvanathan Ramesh, and Peter Meer. "Kernel-based object tracking." IEEE Transactions on pattern analysis and machine intelligence 25.5 (2003): 564-577.
    [15] Hare, Sam, et al. "Struck: Structured output tracking with kernels." IEEE transactions on pattern analysis and machine intelligence 38.10 (2015): 2096-2109.
    [16] Kalal, Zdenek, Krystian Mikolajczyk, and Jiri Matas. "Tracking-learning-detection." IEEE transactions on pattern analysis and machine intelligence 34.7 (2011): 1409-1422.
    [17]https://github.com/foolwood/benchmark_results.
    [18] Mueller, Matthias, Neil Smith, and Bernard Ghanem. "A benchmark and simulator for uav tracking." European conference on computer vision. Springer, Cham, 2016.
    [19] Huang, Lianghua, Xin Zhao, and Kaiqi Huang. "Got-10k: A large high-diversity benchmark for generic object tracking in the wild." IEEE Transactions on Pattern Analysis and Machine Intelligence (2019).
    [20] Russakovsky, Olga, et al. "Imagenet large scale visual recognition challenge." International journal of computer vision 115.3 (2015): 211-252.
    [21] Lin, Tsung-Yi, et al. "Microsoft coco: Common objects in context." European conference on computer vision. Springer, Cham, 2014.

    原文链接:https://developer.aliyun.com/article/766637?

    版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
    展开全文
  • 基于此,提出一种新的跟踪模型,该模型集成了基于双线性卷积神经网络的新型响应图融合方法,可以获得响应图的位置关联和信息交互,利于更准确地跟踪目标物体。基于OTB2013基准数据库对本文算法进行测试,结果表明,与一流...
  • 本文提出了一种基于混合旋转不变描述(MRID)和跳跃搜索方法的新型高速视觉目标跟踪系统。 MRID是一种新颖的通过环形直方图和主导方向对纹理和边缘信息进行旋转不变性描述的方法。 它克服了常规LBP-HOG功能描述中的...
  • 针对大多目标跟踪算法仅关注目标特征的问题,提出同时采用目标特征及背景特征对目标进行跟踪。针对场景中灰度和梯度特征在跟踪过程中其分类性能动态变化,首先计算各特征似然度,然后根据各特征分类性能计算特征权重...
  • 一、引言视觉目标跟踪技术是计算机视觉任务中的一个重要研究课题,旨在给定第一帧的目标初始状态后,对后续帧中目标的位置、尺度等信息进行预测。其在日常生活中有着广泛的
  • 资源名:灰色系统理论_灰色预测模型_多元灰色预测模型的构建_控制系统_预测控制_视觉目标跟踪中的运动预测_matlab 资源类型:matlab项目全套源码 源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果...
  • 首先基于3σ理论和目标/背景相似度两种属性提出了相应的真、不确定、假量测,然后利用加权余弦相似度量构建权值向量,同时提出了基于中智加权余弦相似度量的尺度更新算法,综合提升均值漂移跟踪性能。实验结果表明,...
  • 计算机视觉目标跟踪的可信估计.pdf
  • 人工智能-目标检测-基于显著区域和主题模型的原目标检测和视觉目标跟踪.pdf
  • 提出了一种基于FPGA的DSPBuilder目标跟踪设计方法,通过对MeanShift目标跟踪算法进行并行设计...实验结果证明,目标跟踪的实时性与系统模型设计的并行程度成正比,所设计的系统基本能够满足高速视觉目标跟踪的实时性要求。
  • 非高斯噪声背景下计算机视觉目标跟踪方法.pdf
  • 一种基于鲁棒性的计算机视觉目标跟踪算法.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,027
精华内容 17,610
关键字:

视觉目标跟踪