精华内容
下载资源
问答
  • 多目标跟踪数据集制作
    千次阅读
    2021-08-19 08:16:32

    一、RGB单目标跟踪数据集

    1.短时数据集

    • GOT-10k [paper] [project]
      GOT-10k(Generic Object Tracking benchmark over 10,000 video segments.)是人工标注的用于单目标跟踪的大型数据集,分为训练集、验证集和测试集,分别包含9335,180,180个视频序列,平均序列长度约150帧。该数据集涵盖了563种物体,训练集和验证集提供了详细的标注信息,标注形式为 [x,y,w,h],测试集中每个序列只提供第一帧的bounding box标注。评测方法使用AO, SR0.50, SR0.75和Speed (fps),需将测试结果提交到其官网评测。
    • TrackingNet [paper] [project]
      TrackingNet数据集包含训练集和测试集,训练集包含27种物体,有30312个视频,14205677个标注,平均每个序列约471帧,它是从YouTube Bounding Boxes(YTBB)1中筛选出来的,因为YTBB以1HZ频率稀疏标注,为了提供每帧的真实标注,作者用固定间隔(30帧)的跟踪器结果填补这些没有真实标注帧的真值。测试集包含27种物体,它是从YouTube上筛选用 VATIC2工具标注并人工修正的,有511个视频,225589个标注,平均每个序列约441帧,标注形式为 [x,y,w,h]。评测方法使用Success, Precision和Normalized Precision,需将测试结果提交到其官网评测。
    • UAV123 [paper] [project]
      UAV123数据集是人工标注的无人机场景视频,包含123个视频序列,共约110,000帧,每个序列平均帧长为915,标注形式为 [x,y,w,h]。UAV20L是长时数据集,包含20个序列,共58670帧,每个序列平均帧长为2934。评测方法使用Success plot和Precision plot。
    • Nfs [paper] [project]
      NfS(Need for Speed)数据集包含240FPS和30FPS的视频序列。其中,240FPS视频序列是以240FPS的帧率捕获并用VATIC工具标注的100个视频,共383,000帧,平均每个序列帧长为3830,30FPS视频是从240FPS视频序列中每隔8帧采样提取的,标注形式为 [x,y,w,h]。评测方法使用Success rate和Precision rate。
    • OTB2015 [paper] [project]
      OTB2015(OTB100)数据集包含100个视频序列,标注形式为 [x,y,w,h],评测方法使用success plot和precision plot。

    2.长时数据集

    • LaSOT [paper] [project]
      LaSOT(Large-scale Single Object Tracking)是人工标注的用于单目标跟踪的大型数据集,包含1400个视频序列,平均每个视频序列长度2512帧。该数据集涵盖了70种物体,每种物体包含20个视频序列,每个视频序列提供了 [x,y,w,h] 的bounding box标注和一个自然语言描述。为了更好的衡量跟踪器,共引入14种不同的挑战,包括illumination variation(IV)、full occlusion(FOC)、patial occlusion(POC)、deformation(DEF)、motion blur(MB)、fast motion(FM)、scale variation(SV)、camera motion(CM)、rotation(ROT)、background clutter(BC)、low resolution(LR)、viewpoint change(VC)、out-of-view(OV)、aspect ratio change(ARC),每个视频序列标注为其中的一种或多种。评测跟踪算法定义了两种数据集划分:1.1400个视频序列全部用来评测;2.1120个视频序列用于训练,280个视频序列用于评测,评测方法使用OPE,用precision, normalized precision, success在上述两种测试集和每个attribute上评测。
    • OxUvA [paper] [project]
      OxUvA数据集是从YouTube Bounding Boxes(YTBB)中选出来的以1HZ频率稀疏标注的大型数据集,分为dev和test集,共包含337个视频序列和366个tracks,dev集有200个tracks,test集有166个tracks,平均每个track长度约为4235帧。该数据集涵盖了22种物体,dev中每隔30帧给出标注框,标注形式为 [x1/w, x2/w, y1/h, y2/h],test只给出第一帧的标注框,需将test track上的测试结果提交到其网站上评测。评测方法使用TPR( True Positive Rate), TNR(True Negative Rate), GM( T P R ⋅ T N R \sqrt{TPR · TNR} TPRTNR ), MaxGM( max ⁡ ( ( 1 − p ) ⋅ T P R ) ( ( 1 − p ) ⋅ T N R + p ) \max{\sqrt{((1 − p) · TPR)((1 − p) · TNR + p)}} max((1p)TPR)((1p)TNR+p) , where 0 ≤ p p p ≤ 1)。
    • TLP [paper] [project]
      TLP(Track Long and Prosper)是从YouTube中收集的包含50个高清真实场景视频的数据集,共约676000帧,标注形式为 [x,y,w,h]。评测方法使用precision plot, success plot, LSM plot。

    二、RGBT单目标跟踪数据集

    • RGBT234 [paper] [project]
      RGBT234数据集包含234个视频集,共约233800帧,每个视频集包括该视频的RGB和热红外视频序列,序列中的目标位置分别手工标注,标注形式为 [x,y,w,h],即左上角点和宽、高。该数据集引入No Occlusion(NO)、Partial Occlusion(PO)、Heavy Occlusion(HO)、Low Illumination(LI)、Low Resolution(LR)、Thermal Crossover(TC)、Deformation(DEF)、Fast Motion(FM)、Scale Variation(SV)、Motion Blur(MB)、Camera Moving(CM)、Background Clutter(BC)共12种attributes。整体评测方法采用MPR(maximum precision rate), MSR(maximum success rate), Accuracy, Robustness, EAO(expected average overlap), 每个attribute也用上述指标衡量。
    • RGBT210 [paper and project]
      RGBT210数据集包含210个视频集,RGBT234为此数据集上的扩充版,共约210000帧,每个视频集包括该视频的RGB和热红外视频序列,序列中的目标位置统一手工标注,标注形式为 [x,y,w,h]。该数据集引入同RGBT234的12种attributes。整体评测方法同GTOT采用precision rate(PR)和success rate(SR),每个attribute也用此两种指标衡量。
    • GTOT [paper and project]
      GTOT数据集包含50个视频集,共约15800帧,每个视频集包括该视频的灰度和热红外视频序列,序列中的目标位置分别手工标注,标注形式为 [x1,y1,x2,y2],即左上角点和右下角点。标注的被跟踪目标种类有4类,分别为车辆、人头、人和天鹅。该数据集引入Occlusion(OCC)、Large Scale Variation(LSV)、Fast Motion(FM)、Low Illumination(LI)、Thermal Crossover(TC)、Small Object(SO)、Deformation(DEF)共7种attributes。整体评测方法采用precision score和success score,每个attribute也用此两种指标衡量。
      更详细的数据集获取渠道可参考博客3

    References


    1. YouTube-BoundingBoxes: A Large High-Precision Human-Annotated Data Set for Object Detection in Video. [paper] ↩︎

    2. Efficiently Scaling up Crowdsourced Video Annotation. [paper] ↩︎

    3. 常见目标跟踪数据集下载链接整理(更新中) ↩︎

    更多相关内容
  • 目标跟踪与计数,可参考,可训练自己的数据集
  • 一些单目标跟踪数据集

    千次阅读 2022-01-20 10:59:47
    Generic Object Tracking Benchmark,提供了一个通用目标跟踪基准,发布于2018年。 网站:GOT-10k: Generic Object Tracking Benchmark (http://got-10k.aitestunion.com/) 完整数据大概有 666666 GB。 部分数据

    数据集

    1. GOT-10k

    《GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild》

    Generic Object Tracking Benchmark,提供了一个通用目标跟踪基准,发布于2018年。
    网站:GOT-10k: Generic Object Tracking Benchmark (http://got-10k.aitestunion.com/)

    完整数据大概有 66 66 66 GB。

    部分数据预览(来自官网):

    主要一些特点:

    (1)提供了大规模数据,适用于短期的、通用类别跟踪器。有 10 , 000 10,000 10,000 段视频,超过 1 , 500 , 000 1,500,000 1,500,000 个手工标注的包围框。一共有 563 563 563 个目标种类, 87 87 87 种运动形式。
    (2)测试集由 420 420 420 个视频组成,含有 84 84 84 个目标类别和 31 31 31 个运动类别。训练集测试集 完全没有重叠数据,避免评估结果偏向于熟悉的对象,促进跟踪器泛化能力的开发。
    (3)提供了额外的标签,例如运动类型、目标的可见比率、遮挡指示,促进了跟踪器的运动感知遮挡感知的开发。
    (4)作者用了 39 39 39 个典型的跟踪算法及其变体,在 GOT-10k 上进行了分析和实验。进行了广泛的实验来研究数据集不同的方面对于训练深度跟踪器的影响。意思是你可以相信这个数据集。
    (5)作者提供了功能齐全的工具包,很容易接入和使用。测试集的标注是没有公开的,跑完之后要把结果提交到它们服务器,避免大家作弊。
    在这里插入图片描述

    在这里插入图片描述
    表格里面有 5 5 5 个大类,GOT-10k 的 563 563 563 个目标类别都是从这 5 5 5 个大类扩展来的。



    2. TrackingNet

    《TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild》

    网址:https://tracking-net.org/

    2018年发布的数据集。说当时都是一些小的数据集,没办法用于训练深度学习、机器学习的跟踪算法。缺乏大规模的数据集。

    30 , 643 30,643 30,643 段视频,平均时长 16.6 16.6 16.6s, 14 , 341 , 266 14,341,266 14,341,266 个密集标注框,约 1.14 1.14 1.14 TB。

    从 Youtube-BoundingBoxes (YT-BB) 中精心挑选 30 , 132 30,132 30,132 段视频作为训练集
    构建了一个由 511 511 511 段视频组成的新集合作为测试集,其分布与训练集相似。

    Youtube-BoundingBoxes (YT-BB) 是一个用于目标检测的大规模数据集,包含约380,000个视频片段。这些视频都是直接从YouTube上收集的,在分辨率、帧率和持续时间上有很大的差异。YT-BB包含23个对象类别,其中 person 类占 25 % 25\% 25%,我们把它分成了 7 7 7 个具体类。

    为了保证视频的质量,用于跟踪任务,我们基于属性规则过滤掉了 90 % 90\% 90% 的东西。
    首先,我们删掉了那些小于 15 15 15 秒的视频。
    第二,我们只考虑那些包围框占画面 50 % 50\% 50% 以内的。
    第三,保留了那些包围框在合理变化范围内的视频段。

    经过过滤后,我们保留了 21 21 21 个目标种类,保留了它们在 YT-BB 中的原始分布,防止数据集存在偏差。最终得到的训练集有 30 , 132 30,132 30,132 段视频,我们把它们分成了 12 12 12 份,每份包含 2 , 511 2,511 2,511 段视频,它们每个里面也维持着 YT-BB 中的原始分布。(意思是你合起来用也行,当做大型数据。分开用也行,数据量小一点,但数据的属性和分布是一样的。)

    在这里插入图片描述

    对于测试数据,提供了 15 15 15 条属性,上面 5 5 5 个是自动提取的,根据分析包围框在一定时间内的变化得到的。下面 10 10 10 个是对数据集的 511 511 511 条视频人工查看分析来手动确认的。
    在这里插入图片描述

    我们能够更好地控制数据集中每个视频的帧数,并且相对于其他数据集具有更大的包容性。们认为这种包含长度多样性更适合于固定批量的训练。

    其次,在TrackingNet中,包围框的 分辨率 的分布更加多样化,提供了要跟踪的对象的尺度更加多样化。

    对于在 YT-BB 上运动得很快的东西,TrackingNet 展现出更自然的运动分布。而 OTB100 和 VOT17 上的挑战主要就是集中在运动特别大的目标上。



    3. LaSOT

    《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》

    Large-scale Single Object Tracking,旨在提供一个专用的平台,为了训练一个需要大量数据的深度跟踪器,也为了评估长期跟踪的性能。

    网址:http://vision.cs.stonybrook.edu/~lasot/

    第一版有里有 70 70 70 个种类, 1 , 400 1,400 1,400 个视频序列,大概 227 227 227GB 左右。
    第二版进行了扩展,额外提供了 15 15 15 个种类, 150 150 150 个视频序列,大约 59 59 59GB 的数据。

    2018年左右的数据集。有以下特点:

    (1)Large-scale,大规模 1 , 550 1,550 1,550 个视频序列,超过 3 , 870 , 000 3,870,000 3,870,000 帧图像。
    (2)High-quality,高质量:手工标注,每一帧都仔细检擦。
    (3)Category balance,类别平衡 85 85 85 个类别,其中 70 70 70 个每个有二十个序列,其中 15 15 15 个每个有十个序列。无论目标属于哪个类别,都希望跟踪器表现鲁棒,我们包含了不同的目标集合,来自 70 70 70 个类别,每个类别拥有相同数量的视频。
    (4)Long-term tracking,长期跟踪: 我们保证每个序列有至少 1 , 000 1,000 1,000 帧,平均视频长度大概 2 , 500 2,500 2,500 帧(例如 30 fps 30\text{fps} 30fps 的视频有 83 83 83 秒)。最短的视频有 1 , 000 1,000 1,000 帧,最长的一个有 11 , 397 11,397 11,397 帧( 378 378 378 秒)。
    (5)Comprehensive labeling,详尽的标签:每个序列提供了视觉的语言的标注。
    (6)Flexible Evaluation Protocol,灵活的评估协议:在三种不同协议下进行评估:无约束、完全重叠和一次性。

    LaSOT 由 70 70 70 种对象类别组成。大多数类别是从 ImageNet 的1000个类中选择的,只有少数例外(例如无人机)是为流行的跟踪应用程序精心选择的。与现有的密集基准不同,这些基准的类别少于 30 30 30 个,而且通常分布不均匀,LaSOT 为每个类别提供相同数量的序列,以缓解潜在的类别偏差。

    LaSOT 的每个类别有 20 20 20 种目标,反映了自然场景的类别平衡和多样性。

    在这里插入图片描述
    本数据关注长时间的视频,在这些视频中,目标物体可能会消失,然后再次进入视图。
    此外,我们为每个序列提供了自然语言描述。


    为了进一步分析跟踪器的性能,我们对每个序列标注了 14 14 14 条属性:
    照明变化(illumination variation,IV)
    完全遮挡(full occlusion,FOC)
    部分遮挡(partial occlusion,POC)
    变形(deformation,DEF)
    运动模糊(motion blur,MB)
    快速运动(fast motion,FM)
    尺度变化(scale variation,SV)
    相机运动(camera motion,CM)
    旋转(rotation,ROT)
    背景杂波(background clutter,BC)
    低分辨率(low resolution,LR)
    视点变化(viewpoint change,VC)
    超出视野(out-of-view,OV)
    长宽比变化(aspect ratio change,ARC)
    在这里插入图片描述
    从上图中,我们观察到 LaSOT 中最常见的挑战因素是尺度变化(SV,ARC)、遮挡(POC,FOC)、变形(DEF)、旋转(ROT),这是跟踪器在现实世界的众所周知的挑战。此外,可以看到 LaSOT 有超过 1 , 300 1,300 1,300 条视频涉及尺度变化,有 477 477 477 个序列含有超出视野(OV)的属性,大大高于其他基准数据集。


    本数据集提供了两种算法评估协议。
    ∙ \bullet 协议 I \text{I} I :用整个 1 , 400 1,400 1,400 个序列来验证跟踪器的性能。研究者可以使用 LaSOT 以外的任何数据来开发跟踪器。

    协议 I \text{I} I 旨在提供大规模的评估。

    ∙ \bullet 协议 II \text{II} II :我们把 LaSOT 拆分成 trainingtesting 两个子集。根据 80 / 20 80/20 80/20 原则,我们从每个类别的 20 个视频中选择 16 个进行训练,剩下的 4 个用于测试。其中训练集包含 1 , 120 1,120 1,120 个视频, 2 , 830 , 000 2,830,000 2,830,000 帧图片。测试集包含 280 280 280 个序列, 690 , 000 690,000 690,000 帧图片。

    协议 II \text{II} II 旨在同时为训练和评估提供大量的视频。


    评价方法

    参考文章:《Online Object Tracking: A Benchmark》
    Yi Wu, Jongwoo Lim, Ming-Hsuan Yang;Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013, pp. 2411-2418
    [下载地址]

    论文提供了: (1) precision (精确度) (2) success rate (成功率) 来为单目标跟踪器的性能做定性分析。
    另外,还从 2 2 2 个方面来对跟踪算法的鲁棒性进行评估。



    ∙ \bullet Precision plot

    对于跟踪器的精确度,一个广泛使用的评估指标是中心定位误差(center location error)
    也就是预测框和标签框的中心点之间的(像素)欧式距离。
    对每一帧图像都计算中心定位误差,求平均,就得到跟踪器在这段视频上的整体性能。

    在这里插入图片描述
    然而有时候跟丢了目标,预测框的位置是随机的,这样算出来的平均误差不能正确地反映跟踪器的性能。
    所以我们采用 精度图(precision plot) 来衡量整体跟踪性能。
    它反映的是,符合条件的图片的占比,条件是:预测框与真值框的中心点欧式距离小于指定阈值。阈值一般设为 20 20 20 像素。

    统计所有阈值下的结果,绘制曲线,大概像这样:

    在这里插入图片描述


    ∙ \bullet Success plot
    边界框(bounding box)的重叠度 S S S,也就是计算预测框与真值框的 IOU \textbf{IOU} IOU S = ∣   r t ⋂ r a   ∣ ∣   r t ⋃ r a   ∣ S=\dfrac{| \ r_t \bigcap r_a \ |}{| \ r_t \bigcup r_a \ |} S= rtra  rtra 
    其中 r t r_t rt 是预测框, r a r_a ra 是真值框。 ⋂ \bigcap 是相交, ⋃ \bigcup 是相并。 ∣    ⋅    ∣ | \; \cdot\; | 表示该区域的像素数量。
    我们计算每一个视频序列中,有多少帧的 S S S 大于指定阈值 t o t_o to,把这个占比(成功率)记下来。最后求一个平均。
    t o t_o to 每取一次值,都能算出一个占比。 t o t_o to 0 0 0 取到 1 1 1,把对应的成功率画成图,大概像这样子:

    在这里插入图片描述

    如果我们在指定的阈值下(例如取 t o = 0.5 t_o=0.5 to=0.5)进行比较,可能不够全面,不具代表性。要把每个 t o t_o to 的结果都比一比。
    因此我们常用 AUC \textbf{AUC} AUC(area under curve)对跟踪器进行排名。也就是计算这个成功率曲线下面的面积。


    Robustness Evaluation,鲁棒性评估
    评价跟踪器的传统方法是,在第一帧的时候用真值框来对目标位置进行初始化,后面的帧从该位置开始跟踪。
    跑完整段视频后,报告平均精度(average percision)成功率(success rate)
    我们把这种方法称为一次评估:one-pass evaluation(OPE)。

    然而,跟踪器可能对初始化很敏感,在不同的起始帧做不同的初始化,性能会变好或者变坏。
    于是我们提出了两种方法来分析跟踪器对于初始化的鲁棒性。
    即在时间上(从不同帧开始)和在空间上(从不同的包围框开始)对初始化进行扰动。这些试验分别称为:
    时间稳健性评价(temporal robustness evalution,TRE) 和 空间稳健性评价(spatial robustness evalution,SRE)。


    ∙ \bullet TRETemporal Robustness Evaluation
    时间稳健性评价。
    给定初始帧和真值框,用它对跟踪器进行初始化,然后跑到序列的末尾。
    可以从视频序列中拿某一段来跑,也可以整个都跑。
    评价每一段的跟踪结果,并统计总体数据。


    ∙ \bullet SRESpatial Robustness Evaluation
    空间稳健性评价。
    我们在第一帧对真值框进行平移或者缩放,然后再用来初始化跟踪器。
    我们用 4 4 4 种中心点的位移, 4 4 4 种角点的位移, 4 4 4 种尺度变化。
    位移量为真值框尺寸的 10 % 10\% 10%,尺度变化是原来的 0.8 0.8 0.8 0.9 0.9 0.9 1.1 1.1 1.1 1.2 1.2 1.2
    所以每个跟踪器评估 12 12 12 次。

    展开全文
  • CVPR2022 多目标跟踪(MOT)汇总

    千次阅读 多人点赞 2022-04-22 12:58:52
    因此,在本项工作中,我们提出了一个新的多目标跟踪数据集,由200个序列组成,每个序列30秒,代表具有挑战性的足球场景,和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注,允许...

    一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》

    作者: Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo
    The University of Hong Kong, Carnegie Mellon University, ByteDance Inc

    论文链接:https://arxiv.org/pdf/2111.14690.pdf
    Github:https://github.com/DanceTrack/DanceTrack

    1、摘要

    当前的多目标跟踪采用检测器来进行目标定位,并用ReID模型来实现数据关联。然而在现在的MOT Challenge数据集中,目标的外观是具有足够的区分性的,而这种区分性使得ReID模型很容易区分目标,实现数据关联。此外,当前的数据集中目标的运动模式比较简单,目标运动都可以被近似为匀速线性运动。而这种目标与现实场景中的数据关联是存在一些bias的,我们实际中通常跟踪的目标具有相同的外观表征,同时其运动姿态也会更多样。为此,本文作者提出了一个“DanceTrack”的数据集,希望其能提供一个更好的平台来开发更多的MOT算法,更少地依赖于视觉辨别,更多地依赖于运动分析。

    2、方法

    在上述中,已经提到了DanceTrack的提出动机,下图也是数据集中的一些示例。
    在这里插入图片描述
    以下是DanceTrack与MOT Challenge数据集的比较。
    在这里插入图片描述
    🔺在论文中也给出了很详细地分析,这个数据集的提出也说明了未来多目标跟踪研究的一个趋势,会去关注运动更加复杂,目标外观更相似的场景(后续的SoccerNet也有相似的Motivation)。


    二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》

    作者: Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck
    University of Li`ege, KAUST, Baidu Research

    论文链接:https://arxiv.org/pdf/2204.06918.pdf
    Github:www.soccer-net.org

    1、摘要

    在足球视频中跟踪物体对于收集球员和球队的统计数据非常重要,无论是估计总距离、控球还是队形。视频处理可以帮助自动提取这些信息,而不需要任何携带型传感器,因此适用于任何体育场上的任何球队。然而,当前的数据集来测评这个问题是比较困难的。因此,在本项工作中,我们提出了一个新的多目标跟踪数据集,由200个序列组成,每个序列30秒,代表具有挑战性的足球场景,和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注,允许各种方法在各基准上做测评。该数据集也验证了当前MOT方法在这种快速运动和严重遮挡的领域中并没有很好的解决。因此作者也希望通过该数据集的提出来促进该部分研究的进行。

    2、方法

    SoccerNet的数据集示例如图所示。
    在这里插入图片描述在这里插入图片描述

    以下是SoccerNet与MOT数据集的比较。
    在这里插入图片描述


    三、《MeMOT: Multi-Object Tracking with Memory》

    作者: Jiarui Cai,Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto
    University of Washington,AWS AI Labs

    论文链接:https://arxiv.org/pdf/2203.16761.pdf

    1、摘要

    我们提出了一种在线跟踪算法,在一个公共框架下执行对象检测和数据关联,能够在长时间跨度后链接对象。这是通过保留一个大的时空内存来存储被跟踪对象的ID Embeddings,并根据需要自适应地从内存中引用和聚合有用的信息来实现关联。该模型称为MeMOT,由三个主要模块组成,它们都是基于Transformer的:1)、假设生成(Hypothesis Generation),在当前视频帧中生成目标proposals;2)、内存编码(Memory Encoding),从每个被跟踪对象的内存中提取核心信息;3)、内存解码(Memory Decoding),同时解决目标检测和数据关联任务,进行多目标跟踪。当在广泛采用的MOT基准数据集上进行评估时,MeMOT观察到非常具有竞争性的性能。
    在这里插入图片描述

    2、方法

    在这里插入图片描述
    🔺这篇文章的特点是通过Transformer的结构搭建了一个端到端的MOT框架,不需要后处理,性能和当前的SOTA比不是很高,但是具有一定的竞争力。作者在文中没有提到推理速度,感觉这个框架速度应该是一弱项。

    要理解这个框架,主要是了解作者提出的三个模块。

    1)假设生成(Hypothesis Generation):该模块通过Transformer的Encoder和Decoder生成一组proposal embeddings。这组embeddings有两个作用,一个是表示当前帧新出现的一些目标,另一个是为已经在跟踪状态的目标提供新的位置信息和外观信息。

    2)内存编码(Memory Encoding):这个模块通过Cross-Attn Module来维护每一个instance的两个特征,一个关注短时信息,一个关注长时信息,最后把他们concat在一起去提取每一个instance的特征。长时特征是做了动态更新的,但是作者在文中没有说明更新的方式。
    在这里插入图片描述
    3)内存解码(Memory Decoding):将track的embedding和embedding proposal拼接起来,作为Q,并用当前帧的特征做K和V,通过一个Solver直接预测出Bounding Box,Objectness Score和Uniqueness Score。并通过这些值的组合直接获得最后的检测和数据关联结果。
    在这里插入图片描述


    四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》

    作者: Shuai Li,Yu Kong,Hamid Rezatofighi
    Rochester Institute of Technology,Monash University

    论文链接:https://arxiv.org/pdf/2203.16210.pdf

    1、摘要

    这篇工作研究了基于最小代价流公式(MCF)的多目标跟踪问题,并将其视为一个线性规划的实例进行研究。根据给出的计算性推理,MCF的成果跟踪极大地依赖于底层线性的可学习代价函数。以往的研究大多数聚焦于如何在训练过程中考虑两帧信息来学习代价函数,因此学习到的代价函数对于MCF来说是次优的。在推理过程中,必须在多帧上考虑进行数据关联。为了解决这一问题,本文提出了一种新的可微框架,通过解决一个双层优化问题将训练和推理相关联。其中底层解决了一个线性程序关联的问题,上层为一个包含全局跟踪结果的损失函数。可微层通过梯度下降进行反向传播,明确地学习和正则化全局参数化代价函数。通过这种方法,我们能够学习一个更好的全局MCF目标跟踪器。在MOT16、MOT17和MOT20上,与目前最先进的方法相比,本文的跟踪器取得了具有竞争力的性能。

    2、方法

    在这里插入图片描述
    在这个方法中,作者先通过已有的网络提取目标定位信息,和每一个目标的外观特征。这些外观的特征会构建一个有向的图(方向和时序方向相同)。一个MLP层用于回归不同目标之间的连接概率。在训练过程中通过全局最优化的方法来构建损失优化MLP的参数,而在推理过程中,可以通过训练好的MLP网络直接预测结果进行tracking。

    全文的推理部分比较多,但是全是涉及怎么通过全局最小代价的方法来训练MLP的。需要细致了解该工作可以去看原文。本博客较关心的是作者用了MLP做了什么,输入是什么,最后怎么推理。

    MLP主要用于预测两个detection结果之间是否可以关联,如果可以关联会预测出一个概率,其式子如下:
    在这里插入图片描述
    其中eij表示的是两个detection之间的边是如何构建的(包括尺度、中心距离、框的IOU、embedding的距离等),如下式:
    在这里插入图片描述
    在推理的时候,文中提到会利用基于一个长度为50帧~150帧的批次进行跟踪(预测连接概率,算最小代价流)。并用了Gurobi求解器来获得最后的数据关联结果。由于每一个批次都覆盖了重复帧,所以可以把短轨关联成长轨。

    在后处理中作者还用了单目标跟踪器。


    五、《Global Tracking Transformers》

    作者: Xingyi Zhou,Tianwei Yin,Vladlen Koltun,Phillip Kr¨ahenb¨uhl
    The University of Texas at Austin,Apple

    论文链接:https://arxiv.org/abs/2203.13250
    代码链接:https://github.com/xingyizhou/GTR

    1、摘要

    我们提出一种新的基于Transfomer的结构用于全局多目标跟踪。我们的网络把一段短的视频序列作为输入,并预测所有对象的运行轨迹。其核心部分是一个全局tracking transformer,用于操作序列中所有帧中的目标。Transfomer网络对所有帧中的对象特征进行编码,并使用queries将它们分组为轨迹。轨迹的queries是来自单个帧的对象特征,并自然地产生独特的轨迹。我们的全局tracking transformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3MOTA和59.1HOTA。更重要的是,我们的框架无缝地集成到最先进的大型vocabulary检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架改进了基于成对关联的方法。

    🔺本文的Motivation是搭建个网络可以直接从32帧的图像中学习一种匹配结果,而不是逐帧做一个匹配。
    在这里插入图片描述

    2、方法

    在这里插入图片描述
    在这里插入图片描述
    图中所示的是所提出的Global Tracking Transformer。其中F表示的是多帧的detection结果所提取的特征(其中N表示数量,D表示维度),Q表示用来检索的tracklet的特征(其中M表示数量,D表示维度)。通过Transformer的方式,直接预测获得一个匹配结果G,其中的数值预测每一个轨迹和每一个目标的关联关系,即 git(qk, F) ∈ R表示第t帧第i个目标与该轨迹的关联关系,该值为0表示这个目标与该轨迹没有关联关系。

    在获得了G矩阵之后,在每一帧中单独对同一个轨迹的匹配分数做一次Softmax,得到:
    在这里插入图片描述
    通过找最大的概率,可以直接获得一条轨迹。在训练过程中,作者通过最大化PA来让网络学会这种能力。

    而在测试过程中,感觉和DeepSort的过程依然比较像,不同的是Deepsort直接用了embedding的距离来构建匹配矩阵,而这个是通过transformer网络所预测出来的PA,之后用Hungarian来保持唯一的匹配结果。


    六、《Unified Transformer Tracker for Object Tracking》

    作者: Fan Ma,Mike Zheng Shou,Linchao Zhu,Haoqi Fan,Yilei Xu, Yi Yang, Zhicheng Yan
    ReLER Lab, AAII, University of Technology Sydney,National University of Singapore,Meta AI,Zhejiang University

    论文链接:https://arxiv.org/pdf/2203.15175v1.pdf

    1、摘要

    目标跟踪作为计算机视觉中的一个重要领域,已经形成了两个独立的社区,分别研究单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象的不同,目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack[45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务,但它没有利用大规模跟踪数据集进行训练,并且在单目标跟踪上表现较差。在这项工作中,我们提出了Unified Transformer Tracker (UTT) ,以解决不同场景下的跟踪问题。我们在UTT中构架了一个Transformer Tracker在SOT和MOT中跟踪目标,利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决,并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型,在几个基准测试上进行了广泛的实验。
    在这里插入图片描述
    🔺相比于UniTrack这篇工作解决了在SOT和MOT两个数据集上训练的问题,在SOT任务上提点明显,而MOT上还有一些差距可能是未来Unit类方法可以继续完善的地方。

    2、方法

    在这里插入图片描述
    我们首先使用主干Φ来提取帧特征。 Transformer Tracker 有三个输入,包括参考帧和跟踪帧(当前帧),以及参考帧中的目标框。Transformer Tracker的目标是预测当前帧中的目标定位。首先使用Transformer Tracker中的Target Decoder提取目标特征,Proposal Decoder在跟踪帧中产生候选搜索区域。目标特征和搜索特征都被输入Target Tansformer以预测目标定位。

    该方法在MOT中还是需要一个额外的detector来完成目标的定位。

    展开全文
  • Pascal VOC2012数据集文件结构: 1.打开项目文件夹->data->predefined_classes.txt修改标注类别信息 2.打开软件(labelImg) 3.设置图像文件所在目录,以及标注文件保存目录 4.标注图像,并保存 5.若要...

    Pascal VOC2012数据集文件结构:

    1.打开项目文件夹->data->predefined_classes.txt修改标注类别信息

    2.打开软件(labelImg)

    3.设置图像文件所在目录,以及标注文件保存目录

    4.标注图像,并保存

    5.若要修改源代码在项目的libs->labelFile.py文件中修改

    1.数据集中主要有三个文件,一个是标注的图像信息的文件夹,一个是存放图像的文件夹,还有一个记录多少个类的txt文件。

    2.在当前文件夹下按住shift健,右键打开powershell。

    3.然后修改chage Save Dir,选择annotations保存就好。

    4.然后选择create\nRectBox来绘制矩形框。

    5.然后选择过后,如果觉得这个样本比较难检测就点上difficult。

    6.标记完之后就点击save,之后该标注信息就会保存在annotations文件夹下。

     

     

    展开全文
  • OTB在它的第一个[9]和第二个[12]版本中分别...它们包括大规模人员和刚性目标跟踪数据集NUS_PRO[17]、长期空中跟踪数据集UAV123/UAV20L[15]、彩色跟踪数据集TColor-128[16]、长期跟踪数据集OxUvA[13]、热跟踪数据集PTB-
  • 目标跟踪时,摄像头提供实时的图片信息,我们需要识别出图片目标,且输出目标在图片中的位置,为后续的控制提供条件。在demo中,我是借助darknet_ros实现这一目标。当然,这一模块可以替换成性能更优秀的识别算法...
  • 制作自己的目标检测数据集

    千次阅读 2020-11-19 11:48:56
    文章目录制作自己的目标检测数据集一、下载Voc数据集二、安装标注工具labelimg三、制作图像标签1.创建一个文件夹2.在当前文件夹下打开命令提示符3.打开标注软件 制作自己的目标检测数据集 一、下载Voc数据集 在官网...
  • 多目标跟踪MOT踩坑记录

    万次阅读 多人点赞 2018-12-25 22:10:11
    文章目录tracking MOT log0....算法Codedeep sort `python`计算多目标跟踪性能1 实验:Deep SORT2 实验:Resnet50 MOT163 实验:Resnet50 MOT174 实验:计算MOT17的gt的指标5 实验:Deep SORT(MOT16用gt.t...
  • Darklabel多目标跟踪标注工具

    千次阅读 2021-11-08 23:15:38
    Darklabel多目标跟踪标注工具 github地址:https://github.com/darkpgmr/DarkLabel 阿里云盘链接 参考博客 软件界面 基本说明 Arow / PgUp / PgDn / Home / End:浏览图像帧 鼠标:左(创建框),右(取消最近创建...
  • 目标跟踪数据集

    千次阅读 2019-06-19 10:04:35
    CVPR 2019,亮风台发布的全球最大单目标跟踪数据集; 论文:《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》 LASOT主页: https://cis.temple.edu/lasot/ 数据集下载: ...
  • YOLOv5+DeepSort目标跟踪训练自己的数据集

    千次阅读 热门讨论 2022-05-13 21:50:37
    YOLOv5+deepsort的多目标跟踪
  • 15个目标检测开源数据集汇总

    千次阅读 2022-02-22 00:49:52
    编辑丨极市平台导读目标检测应当在这几年当中研究数量以及应用范围最广的一个领域,也持续的受到很深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集,希望能给大家的学习带来帮...
  • ViBAT是视频输入,所以要先把图片序列转为视频 具体命令是【ffmpeg -f image2 -i ./jpg/1/%06d.jpg -vcodec libx264 -r 30 -b 2000K 1.mp4】 ...第三步:点击右侧箭头所指位置新建一个目标框开始在视频上标注..
  • 前段时间毕业整体资料,在B站上传了一个由自己改进算法制作的行人多目标跟踪demo——《大规模密集行人检测跟踪,行人多目标跟踪,MOT20效果可以,可用于视频智能监控、自动驾驶等》 链接:...
  • 效果图 Success Rate绘制的代码如下 import numpy as np import matplotlib.pyplot as plt import json # 存放OTB测试生成的json文件目录 filename_our = r'xxx.json' ... # 拿到overall的成功率曲线数据,共51条
  • 一、准备工作 1.1数据下载 UAV123数据集官方
  • 点击上方“码农的后花园”,选择“星标”公众号精选文章,第一时间送达目标跟踪(Object-Tracking)问题是目前深度学习中研究的热点问题,主要用在安防监控和自动驾驶上,其中目标跟踪...
  • 目标识别知名数据集1.1 PASCAL VOC1.2 MS COCO1.3 ImageNet2 人脸识别相关2.1 FERET人脸数据库2.2 CMU Multi-PIE人脸数据库2.3 年龄识别数据集IMDB-WIKI2.4 Large-scale CelebFaces Attributes (CelebA) Dataset2.5 ...
  • 作者:神经三羊来源:HyperAI超神经内容概要目标跟踪作为一个非常有前景的研究方向,常常因为场景复杂导致目标跟丢的情况发生。本文按照跟踪目标数量的差异,分别介绍了单目标跟踪多目标跟踪。...
  • 文章目录前言一、目标检测对训练数据集的要求 前言 提示:之前在做深度学习的时候,发现如果想要训练自己的数据集,那么数据集的准备对检测结果有很大的影响。刚好最近看YOLO的帮助文档,发现有一些对数据集的要求...
  • 制作自己的数据集

    千次阅读 2022-02-09 19:32:39
    入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~...虽然现在有很可以现用的数据集,比如说coco,MINIST等,但有些时候需求不一样,还是没法偷懒,要自己制作shu ...
  • 想要了解什么是自监督注意力机制,我们可能需要先去了解什么是光流估计(optical flow estimation),以及它为何被人类和计算机视觉系统作为一种目标跟踪方法。 一般来说,婴儿在 2 至 3 个月大.
  • 标注的格式数据可用于人工智能数据集训练。VOC标签格式,保存为xml文件。YOLO标签格式,保存为txt文件。createML标签格式,保存为json格式。待标注图片数据的路径文件夹,这里输入命令的时候就选定了JPEGImages。...
  • 在nuScenes验证上可视化的跟踪过程如下图所示: 八、结论 在本文中,作者提出了SimTrack,一种用于激光雷达点云三维多目标跟踪的端到端可训练模型,作者的方法采取了第一步来简化现有手工制作的跟踪管道,这些...
  • blenderproc 制作位姿估计数据集

    千次阅读 2022-02-23 15:35:03
    blenderproc 制作位姿估计数据集 准备工作 1.首先需要去下载blenderproc的源码blenderproc,按照作者的readme文件进行编译。 2.其次需要下载bop_toolkit源码,链接如下bop_toolkit 3.说明:blenderproc主要用来生成...
  • 目标跟踪实战deepsort+yolov5(上)

    千次阅读 2022-08-06 15:30:56
    今天的主要目的还是快速上手目标跟踪,先前的话我是简单说了一下卡尔曼滤波,然后由于博客的问题,没有说完。本来是想做一个系列的,但是很难整理,而且说实话有些东西我也没搞清楚。当然这并不影响我们使用,抽象...
  • CVPR2021目标跟踪汇总(一)

    千次阅读 2021-07-14 16:26:54
    CVPR2021目标跟踪 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们...
  • 传感器融合之雷达图像数据集自动生成
  • Robust Multi-Modality Multi-Object Tracking鲁棒模态多目标跟踪学习笔记摘要介绍相关工作多目标跟踪框架 摘要 传感器感知是自动驾驶系统可靠性和准确性的关键,而多目标跟踪任务(MOT)通过追踪动态目标的序列...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,868
精华内容 5,947
关键字:

多目标跟踪数据集制作