精华内容
下载资源
问答
  • fast-rcnn, faster-rcnn, ssd, yolov1,yolov2,yolov3,refineDet,M2Det英文论文
  • 2021年小目标检测最新研究综述

    千次阅读 2021-08-12 00:59:19
    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达作者丨高新波、莫梦竟成、汪海涛、冷佳旭转载自丨极市平台导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目...

    点击下方卡片,关注“CVer”公众号

    AI/CV重磅干货,第一时间送达

    作者丨高新波、莫梦竟成、汪海涛、冷佳旭 

    转载自丨极市平台

    导读

     

    与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系统且深入的分析与总结。 

    文章链接:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001

    公众号后台回复“小目标检测综述”,即可获取PDF

    摘要

    小目标检测长期以来是计算机视觉中的一个难点和研究热点。在深度学习的驱动下,小目标 检测已取得了重大突破,并成功应用于国防安全、智能交通和工业自动化等领域。为了进一步促进小 目标检测的发展,本文对小目标检测算法进行了全面的总结,并对已有算法进行了归类、分析和比较。首先,对小目标进行了定义,并概述小目标检测所面临的挑战。然后,重点阐述从数据增强、多尺度学习、上下文学习、生成对抗学习以及无锚机制等方面来提升小目标检测性能的方法,并分析了这些方法的优缺点和关联性。之后,全面介绍小目标数据集,并在一些常用的公共数据集上对已有算法进行了 性能评估。最后本文对小目标检测技术的未来发展方向进行了展望。

    引言

    目标检测是计算机视觉领域中的一个重要研究方向,也是其他复杂视觉任务的基础。 作为图像理解和计算机视觉的基石,目标检测是解决分割、场景理解、目标跟踪、图像描述和事件检测等更高层次 视觉任务的基础。小目标检测长期以来是目标检测中的一个难点,其旨在精准检测出图像中可视化特征极少的小目标(32 像素×32 像素以下的目标)。在现实场景中,由于小目标是的大量存在,因此小目 标检测具有广泛的应用前景,在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要 作用。

    近年来,深度学习技术的快速发展为小目标检测注入了新鲜血液,使其成为研究热点。然而,相 对于常规尺寸的目标,小目标通常缺乏充足的外观信息,因此难以将它们与背景或相似的目标区分开来。在深度学习的驱动下,尽管目标检测算法已取得了重大突破,但是对于小目标的检测仍然是不尽人意的。在目标检测公共数据集 MS COCO[1]上,小目标和大目标在检测性能上存在显著差距,小目标的检测性能通常只有大目标的一半。由此可见,小目标检测仍然是充满挑战的。此外,真实场景是错 综复杂的,通常会存在光照剧烈变化、目标遮挡、目标稠密相连和目标尺度变化等问题,而这些因素对 小目标特征的影响是更加剧烈的,进一步加大了小目标检测的难度。

    事实上,小目标检测具有重要的 研究意义和应用价值。对于机场跑道,路面上会存在微小物体,如螺帽、螺钉、垫圈、钉子和保险丝等, 精准地检测出跑道的这些小异物将避免重大的航空事故和经济损失。对于自动驾驶,从汽车的高分辨 率场景照片中准确地检测出可能引起交通事故的小物体是非常有必要的。对于工业自动化,同样需要小目标检测来定位材料表面可见的小缺陷。对于卫星遥感图像,图像中的目标,例如车、船,可能只有 几十甚至几个像素。精确地检测出卫星遥感图像中的微小目标将有助于政府机构遏制毒品和人口贩 运,寻找非法渔船并执行禁止非法转运货物的规定。综上所述,小目标检测具有广泛的应用价值和重要的研究意义。

    与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系统且深入的分析与总结。 本文不仅对小目标 的定义进行了解释,也对小目标检测领域存在的挑战进行了详细地分析和总结,同时重点阐述了小目 标检测优化思路,包括数据增强、多尺度学习、上下文学习、生成对抗学习以及无锚机制以及其他优化 策略等。此外,本文还在常用的小目标数据集上分析对比了现有算法的检测性能。最后,对本文内容 进行了简要的总结,并讨论了小目标检测未来可能的研究方向和发展趋势。

    1 小目标定义及难点分析

    1.1 小目标定义

    不同场景对于小目标的定义各不相同,目前尚未形成统一的标准。现有的小目标定义方式主要分为以下两类,即基于相对尺度的定义与基于绝对尺度的定义。

    (1)基于相对尺度定义。 即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen等[11]提出一个针对小目标的数据集,并对小目标做了如下定义:同一类别中所有目标实例的相对面积,即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。文中对小目标的定义也给出了更具体的说法,如在640像素×480像素分辨率图像中,16像素×16像素到42像素×42像素的目标应考虑为小目标。除了Chen等对小目标的定义方式以外,较为常见的还有以下几种:(1)目标边界框的宽高与图像的宽高比例小于一定值,较为通用的比例值为0.1;(2)目标边界框面积与图像面积的比值开方小于一定值,较为通用的值为0.03;(3)根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。

    但是,这些基于相对尺度的定义存在诸多问题,如这种定义方式难以有效评估模型对不同尺度目标的检测性能。此外,这种定义方式易受到数据预处理与模型结构的影响。

    (2)基于绝对尺度定义。 则从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集[1],将小目标定义为分辨率小于32像素×32像素的目标。对于为什么是32像素×32像素,本文从两个方向进行了思考。一种思路来自于Torralba等[12]的研究,人类在图像上对于场景能有效识别需要的彩色图像像素大小为32像素×32像素,即小于32像素×32像素的目标人类都难以识别。另一种思路来源于深度学习中卷积神经网络本身的结构,以与MS COCO数据集第一部分同年发布的经典网络结构VGG‑Net[13]为例,从输入图像到全连接层的特征向量经过了5个最大池化层,这导致最终特征向量上的“一点”对应到输入图像上的像素大小为32像素×32像素。于是,从特征提取的难度不同这一角度考虑,可以将32像素×32像素作为区分小目标与常规目标的一个界定标准。除了MS COCO之外,还有其他基于绝对尺度的定义,如在航空图像数据集DOTA[14]与人脸检测数据集WIDER FACE[15]中都将像素值范围在[10, 50]之间的目标定义为小目标。在行人识别数据集CityPersons[16]中,针对行人这一具有特殊比例的目标,将小目标定义为了高度小于75像素的目标。基于航空图像的小行人数据集TinyPerson[17]则将小目标定义为像素值范围在[20, 32]之间的目标,而且近一步将像素值范围在[2, 20]之间的目标定义为微小目标。

    1.2 小目标检测面临的挑战

    前文中已简要阐述小目标的主流定义,通过这些定义可以发现小目标像素占比少,存在覆盖面积小、包含信息少等基本特点。这些特点在以往综述或论文中也多有提及,但是少有对小目标检测难点进行分析与总结。接下来本文将试图对造成小目标检测难度高的原因以及其面临的挑战进行分析与总结。

    (1) 可利用特征少

    无论是从基于绝对尺度还是基于相对尺度的定义,小目标相对于大/中尺度尺寸目标都存在分辨率低的问题。低分辨率的小目标可视化信息少,难以提取到具有鉴别力的特征,并且极易受到环境因素的干扰,进而导致了检测模型难以精准定位和识别小目标。

    (2) 定位精度要求高

    小目标由于在图像中覆盖面积小,因此其边界框的定位相对于大/中尺度尺寸目标具有更大的挑战性。在预测过程中,预测边界框框偏移一个像素点,对小目标的误差影响远高于大/中尺度目标。此外,现在基于锚框的检测器依旧占据绝大多数,在训练过程中,匹配小目标的锚框数量远低于大/中尺度目标,如图1所示,这进一步地导致了检测模型更侧重于大/中尺度目标的检测,难以检测小目标。图中IoU(Interp over union)为交并比。

    (3) 现有数据集中小目标占比少

    在目标检测领域中,现有数据集大多针对大/中尺度尺寸目标,较少关注小目标这一特别的类型。MS COCO中虽然小目标占比较高,达31.62%,但是每幅图像包含的实例过多,小目标分布并不均匀。同时,小目标不易标注,一方面来源于小目标在图像中不易被人类关注,很难标全;另一方面是小目标对于标注误差更为敏感。另外,现有的小目标数据集往往针对特定场景,例如文献[14]针对空中视野下的图像、文献[15]针对人脸、文献[16‑17]针对行人、文献[18]针对交通灯、文献[19]针对乐谱音符,使用这些数据集训练的网络不适用于通用的小目标检测。总的来说,大规模的通用小目标数据集尚处于缺乏状态,现有的算法没有足够的先验信息进行学习,导致了小目标检测性能不足。

    (4) 样本不均衡问题

    为了定位目标在图像中的位置,现有的方法大多是预先在图像的每个位置生成一系列的锚框。在训练的过程中,通过设定固定的阈值来判断锚框属于正样本还是负样本。这种方式导致了模型训练过程中不同尺寸目标的正样本不均衡问题。当人工设定的锚框与小目标的真实边界框差异较大时,小目标的训练正样本将远远小于大/中尺度目标的正样本,这将导致训练的模型更加关注大/中尺度目标的检测,而忽略小目标的检测。如何解决锚框机制导致的小目标和大/中尺度目标样本不均衡问题也是当前面临的一大挑战。

    (5) 小目标聚集问题

    相对于大/中尺度目标,小目标具有更大概率产生聚集现象。当小目标聚集出现时,聚集区域相邻的小目标通过多次降采样后,反应到深层特征图上将聚合成一个点,导致检测模型无法区分。当同类小目标密集出现时,预测的边界框还可能会因后处理的非极大值抑制操作将大量正确预测的边界框过滤,从而导致漏检情况。另外,聚集区域的小目标之间边界框距离过近,还将导致边界框难以回归,模型难以收敛。

    (6) 网络结构原因

    在目标检测领域,现有算法的设计往往更为关注大/中尺度目标的检测性能。针对小目标特性的优化设计并不多,加之小目标自身特性所带来的难度,导致现有算法在小目标检测上普遍表现不佳。虽然无锚框的检测器设计是一个新的发展趋势,但是现有网络依旧是基于锚框的检测器占据主流,而锚框这一设计恰恰对小目标极不友好。此外,在现有网络的训练过程中,小目标由于训练样本占比少,对于损失函数的贡献少,从而进一步减弱了网络对于小目标的学习能力。

    2 小目标检测研究思路

    2.1 数据增强

    数据增强是一种提升小目标检测性能的最简单和有效的方法,通过不同的数据增强策略可以扩充训练数据集的规模,丰富数据集的多样性,从而增强检测模型的鲁棒性和泛化能力。在相对早期的研究中,Yaeger等[20]通过使用扭曲变形、旋转和缩放等数据增强方法显著提升了手写体识别的精度。之后,数据增强中又衍生出了弹性变形[21]、随机裁剪[22]和平移[23]等策略。目前,这些数据增强策略已被广泛应用于目标检测中。

    近些年来,基于深度学习的卷积神经网络在处理计算机视觉任务中获得了巨大的成功。深度学习的成功很大程度上归功于数据集的规模和质量,大规模和高质量的数据能够大幅度提升模型的泛化能力。数据增强策略在目标检测领域有着广泛应用,例如Fast R‑CNN[24]、Cascade R‑CNN[25]中使用的水平翻转,YOLO[26]、YOLO9000[27]中使用的调整图像曝光和饱和度,还有常被使用的CutOut[28]、MixUp[29]、CutMix[30]等方法。最近,更是有诸如马赛克增强(YOLOv4[31])、保持增强[32]等创新策略提出,但是这些数据增强策略主要是针对常规目标检测。

    聚焦到小目标检测领域,小目标面临着分辨率低、可提取特征少、样本数量匮乏及分布不均匀等诸多挑战,数据增强的重要性愈发显著。近些年来,出现了一些适用于小目标的数据增强方法(表 1)。Yu等[17]在对数据的处理中,提出了尺度匹配策略,根据不同目标尺寸进行裁剪,缩小不同大小目标之间的差距,从而避免常规缩放操作中小目标信息易丢失的情形。Kisantal等[33]针对小目标覆盖的面积小、出现位置缺乏多样性、检测框与真值框之间的交并比远小于期望的阈值等问题,提出了一种复制增强的方法,通过在图像中多次复制粘贴小目标的方式来增加小目标的训练样本数,从而提升了小目标的检测性能。在Kisantal等的基础上,Chen等[34]在RRNet中提出了一种自适应重采样策略进行数据增强,这种策略基于预训练的语义分割网络对目标图像进行考虑上下文信息的复制,以解决简单复制过程中可能出现的背景不匹配和尺度不匹配问题,从而达到较好的数据增强效果。Chen等[35]则从小目标数量占比小、自身包含信息少等问题出发,在训练过程中对图像进行缩放与拼接,将数据集中的大尺寸目标转换为中等尺寸目标,中等尺寸目标转换为小尺寸目标,并在提高中/小尺寸目标的数量与质量的同时也兼顾考虑了计算成本。在针对小目标的特性设计对应的数据增强策略之外,Zoph等[36]超越了目标特性限制,提出了一种通过自适应学习方法例如强化学习选择最佳的数据增强策略,在小目标检测上获得了一定的性能提升。

    数据增强这一策略虽然在一定程度上解决了小目标信息量少、缺乏外貌特征和纹理等问题,有效提高了网络的泛化能力,在最终检测性能上获得了较好的效果,但同时带来了计算成本的增加。而且在实际应用中,往往需要针对目标特性做出优化,设计不当的数据增强策略可能会引入新的噪声,损害特征提取的性能,这也给算法的设计带来了挑战。

    2.2 多尺度学习

    小目标与常规目标相比可利用的像素较少,难以提取到较好的特征,而且随着网络层数的增加,小目标的特征信息与位置信息也逐渐丢失,难以被网络检测。这些特性导致小目标同时需要深层语义信息与浅层表征信息,而多尺度学习将这两种相结合,是一种提升小目标检测性能的有效策略。

    早期的多尺度检测有两个思路。一种是使用不同大小的卷积核通过不同的感受野大小来获取不同尺度的信息,但这种方法计算成本很高,而且感受野的尺度范围有限,Simonyan和Zisserman[13]提出使用多个小卷积核代替大卷积核具备巨大优势后,使用不同大小卷积核的方法逐渐被弃用。之后,Yu等[37]提出的空洞卷积和Dai等[38]提出的可变卷积又为这种通过不同感受野大小获取不同尺度信息的方法开拓了新的思路。另一种来自于图像处理领域的思路——图像金字塔[39],通过输入不同尺度的图像,对不同尺度大小的目标进行检测,这种方法在早期的目标检测中有所应用[40‑41](见图2(a))。但是,基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有极高的要求。近些年来,图像金字塔在实际研究应用中较少被使用,仅有文献[42‑43]等方法针对数据集目标尺度差异过大等问题而使用。

    目标检测中的经典网络如Fast R‑CNN[24]、Faster R‑CNN[44]、SPPNet[45]和R‑FCN[46]等大多只是利用了深度神经网络的最后层来进行预测。然而,由于空间和细节特征信息的丢失,难以在深层特征图中检测小目标。在深度神经网络中,浅层的感受野更小,语义信息弱,上下文信息缺乏,但是可以获得更多空间和细节特征信息。从这一思路出发,Liu等[47]提出一种多尺度目标检测算法SSD(Single shot multibox detector),利用较浅层的特征图来检测较小的目标,而利用较深层的特征图来检测较大的目标,如图2(b)所示。Cai等[48]针对小目标信息少,难以匹配常规网络的问题,提出统一多尺度深度卷积神经网络,通过使用反卷积层来提高特征图的分辨率,在减少内存和计算成本的同时显著提升了小目标的检测性能。

    针对小目标易受环境干扰问题,Bell等[49]为提出了ION(Inside‑outside network)目标检测方法,通过从不同尺度特征图中裁剪出同一感兴趣区域的特征,然后综合这些多尺特征来预测,以达到提升检测性能的目的。与ION的思想相似,Kong等[50]提出了一种有效的多尺度融合网络,即HyperNet,通过综合浅层的高分辨率特征和深层的语义特征以及中间层特征的信息显著提高了召回率,进而提高了小目标检测的性能(见图2(c))。这些方法能有效利用不同尺度的信息,是提升小目标特征表达的一种有效手段。但是,不同尺度之间存在大量重复计算,对于内存和计算成本的开销较大。

    为节省计算资源并获得更好的特征融合效果,Lin等[51]结合单一特征映射、金字塔特征层次和综合特征的优点,提出了特征金字塔FPN(Feature Pyramid network)。FPN是目前最流行的多尺度网络,它引入了一种自底向上、自顶向下的网络结构,通过将相邻层的特征融合以达到特征增强的目的(见图2(d))。在FPN的基础上,Liang等[52]提出了一种深度特征金字塔网络,使用具有横向连接的特征金字塔结构加强小目标的语义特征,并辅以特别设计的锚框和损失函数训练网络。为了提高小目标的检测速度,Cao等[53]提出一种多层次特征融合算法,即特征融合SSD,在SSD的基础上引入上下文信息,较好地平衡了小目标检测的速度与精度。但是基于SSD的特征金字塔方法需要从网络的不同层中抽取不同尺度的特征图进行预测,难以充分融合不同尺度的特征。针对这一问题,Li和Zhou[54]提出一种特征融合单次多箱探测器,使用一个轻量级的特征融合模块,联系并融合各层特征到一个较大的尺度,然后在得到的特征图上构造特征金字塔用于检测,在牺牲较少速度的情形下提高了对小目标的检测性能。针对机场视频监控中的小目标识别准确率较低的问题,韩松臣等[55]提出了一种结合多尺度特征融合与在线难例挖掘的机场路面小目标检测方法,该方法采用ResNet‑101作为特征提取网络,并在该网络基础上建立了一个带有上采样的“自顶向下”的特征融合模块,以生成语义信息更加丰富的高分辨率特征图。

    最近,多尺度特征融合这一方法又有了新的拓展,如Nayan等[56]针对小目标经过多层网络特征信息易丢失这一问题,提出了一种新的实时检测算法,该算法使用上采样和跳跃连接在训练过程中提取不同网络深度的多尺度特征,显著提高了小目标检测的检测精度与速度。Liu等[57]为了降低高分辨率图像的计算成本,提出了一种高分辨率检测网络,通过使用浅层网络处理高分辨率图像和深层网络处理低分辨率图像,在保留小目标尽可能多的位置信息同时提取了更多的语义信息,在降低计算成本的情形下提升了小目标的检测性能。Deng等[58]发现虽然多尺度融合可以有效提升小目标检测性能,但是不同尺度的特征耦合仍然会影响性能,于是提出了一种扩展特征金字塔网络,使用额外的高分辨率金字塔级专门用于小目标检测。

    总体来说,多尺度特征融合同时考虑了浅层的表征信息和深层的语义信息,有利于小目标的特征提取,能够有效地提升小目标检测性能。然而,现有多尺度学习方法在提高检测性能的同时也增加了额外的计算量,并且在特征融合过程中难以避免干扰噪声的影响,这些问题导致了基于多尺度学习的小目标检测性能难以得到进一步提升。

    2.3 上下文学习

    在真实世界中,“目标与场景”和“目标与目标”之间通常存在一种共存关系,通过利用这种关系将有助于提升小目标的检测性能。在深度学习之前,已有研究[59]证明通过对上下文进行适当的建模可以提升目标检测性能,尤其是对于小目标这种外观特征不明显的目标。随着深度神经网络的广泛应用,一些研究也试图将目标周围的上下文集成到深度神经网络中,并取得了一定的成效。以下将从基于隐式上下文特征学习和基于显式上下文推理的目标检测两个方面对国内外研究现状及发展动态进行简要综述。

    (1)基于隐式上下文特征学习的目标检测。 隐式上下文特征是指目标区域周围的背景特征或者全局的场景特征。事实上,卷积神经网络中的卷积操作在一定程度上已经考虑了目标区域周围的隐式上下文特征。为了利用目标周围的上下文特征,Li等[60]提出一种基于多尺度上下文特征增强的目标检测方法,该方法首先在图像中生成一系列的目标候选区域,然后在目标周围生成不同尺度的上下文窗口,最后利用这些窗口中的特征来增强目标的特征表示(见图3(a))。随后,Zeng等[61]提出一种门控双向卷积神经网络,该网络同样在目标候选区域的基础上生成包含不同尺度上下文的支撑区域,不同之处在于该网络让不同尺度和分辨率的信息在生成的支撑区域之间相互传递,从而综合学习到最优的特征。为了更好地检测复杂环境下的微小人脸,Tang等[62]提出一种基于上下文的单阶段人脸检测方法,该方法设计了一种新的上下文锚框,在提取人脸特征的同时考虑了其周围的上下文信息,例如头部信息和身体信息。郑晨斌等[63]提出一种强化上下文模型网络,该网络利用双空洞卷积结构来节省参数量的同时,通过扩大有效感受野来强化浅层上下文信息,并在较少破坏原始目标检测网络的基础上灵活作用于网络中浅预测层。然而,这些方法大多依赖于上下文窗口的设计或受限于感受野的大小,可能会导致重要上下文信息的丢失。

    图3 上下文在目标检测中的探索历程

    为了更加充分地利用上下文信息,一些方法尝试将全局的上下文信息融入到目标检测模型中(见 图3(b))。对于早期的目标检测算法,一种常用的集成全局上下文方法是通过构成场景元素的统计汇总,例如Gist[64]。Torralba等[65]提出通过计算全局场景的低级特征和目标的特征描述符的统计相关性来对视觉上下文建模。随后,Felzenszwalb等[66]提出一种基于混合多尺度可变形部件模型的目标检测方法。该方法通过引入上下文来对检测结果进行二次评分,从而进一步提升检测结果的可靠性。对于目前的基于深度学习的目标检测算法,主要通过较大的感受野、卷积特征的全局池化或把全局上下文看作一种序列信息3种方式来感知全局上下文。Bell等[49]提出基于循环神经网络的上下文传递方法,该方法利用循环神经网络从4个方向对整个图像中的上下文信息进行编码,并将得到的4个特征图进行串联,从而实现对全局上下文的感知。然而,该方法使模型变得复杂,并且模型的训练严重依赖于初始化参数的设置。Ouyang等[67]通过学习图像的分类得分,并将该得分作为补充的上下文特征来提升目标检测性能。为了提升候选区域的特征表示,Chen等[68]提出一种上下文微调网络,该网络首先通过计算相似度找到与目标区域相关的上下文区域,然后利用这些上下文区域的特征来增强目标区域特征。随后,Barnea等[69]将上下文的利用视为一个优化问题,讨论了上下文或其他类型的附加信息可以将检测分数提高到什么程度,并表明简单的共现性关系是最有效的上下文信息。此外,Chen等[70]提出一种层次上下文嵌入框架,该框架可以作为一个即插即用的组件,通过挖掘上下文线索来增强候选区域的特征表达,从而提升最终的检测性能。最近,张瑞琰等[71]提出了面向光学遥感目标的全局上下文检测模型,该模型通过全局上下文特征与目标中心点局部特征相结合的方式生成高分辨率热点图,并利用全局特征实现目标的预分类。此外,一些方法通过语义分割来利用全局上下文信息。He等[72]提出一种统一的实例分割框架,利用像素级的监督来优化检测器,并通过多任务的方式联合优化目标检测和实例分割模型。尽管通过语义分割可以显著提高检测性能,但是像素级的标注是非常昂贵的。鉴于此,Zhao等[73]提出一种生成伪分割标签的方法,通过利用伪分割标签来于优化检测器,并取得了不错的效果。进一步地,Zhang等[74]提出一种无监督的分割方法,在无像素级的标注下通过联合优化目标检测和分割来增强用于目标检测的特征图。目前,基于全局上下文的方法在目标检测上已经取得了较大的进展,但如何从全局场景中找到有利于提升小目标检测性能的上下文信息仍然是当前的研究难点。

    (2)基于显式上下文推理的目标检测。 显示上下文推理是指利用场景中明确的上下文信息来辅助推断目标的位置或类别,例如利用场景中天空区域与目标的上下文关系来推断目标的类别。上下文关系通常指场景中目标与场景或者目标与目标之间的约束和依赖关系(见图3(c))。为了利用上下文关系,Chen等[75]提出一种自适应上下文建模和迭代提升的方法,通过将一个任务的输出作为另一个任务的上下文来提升目标分类和检测性能。此后,Gupta等[76]提出一种基于空间上下文的目标检测方法。该方法能够准确地捕捉到上下文和感兴趣目标之间的空间关系,并且有效地利用了上下文区域的外观特征。进一步地,Liu等[77]提出一种结构推理网络,通过充分考虑场景上下文和目标之间的关系来提升目标的检测性能。为了利用先验知识,Xu等[78]在Faster R‑CNN[44]的基础上提出了一种Reasoning‑RCNN,通过构建知识图谱来编码上下文关系,并利用先验的上下文关系来影响目标检测。Chen等[79]提出了一种空间记忆网络,空间记忆实质上是将目标实例重新组合成一个伪图像表示,并将伪图像表示输入到卷积神经网络中进行目标关系推理,从而形成一种顺序推理体系结构。在注意力机制的基础上,Hu等[80]提出一种轻量级目标关系网络,通过引入不同物体之间的外观和几何结构关系来做约束,实现物体之间的关系建模。该网络无需额外的监督,并且易于嵌入到现有的网络中,可以有效地过滤冗余框,从而提升目标的检测性能。

    近年来,基于上下文学习的方法得到了进一步发展。Lim等[81]提出一种利用上下文连接多尺度特征的方法,该方法中使用网络不同深度层级中的附加特征作为上下文,辅以注意力机制聚焦于图像中的目标,充分利用了目标的上下文信息,进而提升了实际场景中的小目标检测精度。针对室内小尺度人群检测面临的目标特征与背景特征重叠且边界难以区分的问题,Shen等[82]提出了一种室内人群检测网络框架,使用一种特征聚合模块(Feature aggregation module, FAM)通过融合和分解的操作来聚合上下文特征信息,为小尺度人群检测提供更多细节信息,进而显著提升了对于室内小尺度人群的检测性能。Fu等[83]提出了一种新颖的上下文推理方法,该方法对目标之间的固有语义和空间布局关系进行建模和推断,在提取小目标语义特征的同时尽可能保留其空间信息,有效解决了小目标的误检与漏检问题。为了提升目标的分类结果,Pato等[84]提出一种基于上下文的检测结果重打分方法,该方法通过循环神经网络和自注意力机制来传递候选区域之间的信息并生成上下文表示,然后利用得到的上下文来对检测结果进行二次评估。

    基于上下文学习的方法充分利用了图像中与目标相关的信息,能够有效提升小目标检测的性能。但是,已有方法没有考虑到场景中的上下文信息可能匮乏的问题,同时没有针对性地利用场景中易于检测的结果来辅助小目标的检测。鉴于此,未来的研究方向可以从以下两个角度出发考虑:(1)构建基于类别语义池的上下文记忆模型,通过利用历史记忆的上下文来缓解当前图像中上下文信息匮乏的问题;(2)基于图推理的小目标检测,通过图模型和目标检测模型的结合来针对性地提升小目标的检测性能。

    2.4 生成对抗学习

    生成对抗学习的方法旨在通过将低分辨率小目标的特征映射成与高分辨率目标等价的特征,从而达到与尺寸较大目标同等的检测性能。前文所提到的数据增强、特征融合和上下文学习等方法虽然可以有效地提升小目标检测性能,但是这些方法带来的性能增益往往受限于计算成本。针对小目标分辨率低问题,Haris等[85]提出一种端到端的联合训练超分辨率和检测模型的方法,该方法一定程度上提升了低分辨率目标的检测性能。但是,这种方法对于训练数据集要求较高,并且对小目标检测性能的提升不足。

    目前,一种有效的方法是通过结合生成对抗网络(Generative adversarial network, GAN)[86]来提高小目标的分辨率,缩小小目标与大/中尺度目标之间的特征差异,增强小目标的特征表达,进而提高小目标检测的性能。在Radford等[87]提出了DCGAN(Deep convolutional GAN)后,计算视觉的诸多任务开始利用生成对抗模型来解决具体任务中面临的问题。针对训练样本不足的问题,Sixt等[88]提出了RenderGAN,该网络通过对抗学习来生成更多的图像,从而达到数据增强的目的。为了增强检测模型的鲁棒性,Wang等[89]通过自动生成包含遮挡和变形特征的样本,以此提高对困难目标的检测性能。随后,Li等[90]提出了一种专门针对小目标检测的感知GAN方法,该方法通过生成器和鉴别器相互对抗的方式来学习小目标的高分辨率特征表示。在感知GAN中,生成器将小目标表征转换为与真实大目标足够相似的超分辨表征。同时,判别器与生成器对抗以识别生成的表征,并对生成器施加条件要求。该方法通过生成器和鉴别器相互对抗的方式来学习小目标的高分辨率特征表示。这项工作将小目标的表征提升为“超分辨”表征,实现了与大目标相似的特性,获得了更好的小目标检测性能。

    近年来,基于GAN对小目标进行超分辨率重建的研究有所发展,Bai等[91]提出了一种针对小目标的多任务生成对抗网络(Multi‑task generative adversarial network, MTGAN)。在MTGAN中,生成器是一个超分辨率网络,可以将小模糊图像上采样到精细图像中,并恢复详细信息以便更准确地检测。判别器是多任务网络,区分真实图像与超分辨率图像并输出类别得分和边界框回归偏移量。此外,为了使生成器恢复更多细节以便于检测,判别器中的分类和回归损失在训练期间反向传播到生成器中。MTGAN由于能够从模糊的小目标中恢复清晰的超分辨目标,因此大幅度提升了小目标的检测性能。进一步地,针对现有的用于小目标检测的超分辨率模型存在缺乏直接的监督问题,Noh等[92]提出一种新的特征级别的超分辨率方法,该方法通过空洞卷积的方式使生成的高分辨率目标特征与特征提取器生成的低分辨率特征保持相同的感受野大小,从而避免了因感受野不匹配而生成错误超分特征的问题。此外,Deng等[58]设计了一种扩展特征金字塔网络,该网络通过设计的特征纹理模块生成超高分辨率的金字塔层,从而丰富了小目标的特征信息。

    基于生成对抗模型的目标检测算法通过增强小目标的特征信息,可以显著提升检测性能。同时,利用生成对抗模型来超分小目标这一步骤无需任何特别的结构设计,能够轻易地将已有的生成对抗模型和检测模型相结合。但是,目前依旧面临两个无法避免的问题:(1)生成对抗网络难以训练,不易在生成器和鉴别器之间取得好的平衡;(2)生成器在训练过程中产生样本的多样性有限,训练到一定程度后对于性能的提升有限。

    2.5 无锚机制

    锚框机制在目标检测中扮演着重要的角色。许多先进的目标检测方法都是基于锚框机制而设计的,但是锚框这一设计对于小目标的检测极不友好。现有的锚框设计难以获得平衡小目标召回率与计算成本之间的矛盾,而且这种方式导致了小目标的正样本与大目标的正样本极度不均衡,使得模型更加关注于大目标的检测性能,从而忽视了小目标的检测。极端情况下,设计的锚框如果远远大于小目标,那么小目标将会出现无正样本的情况。小目标正样本的缺失,将使得算法只能学习到适用于较大目标的检测模型。此外,锚框的使用引入了大量的超参,比如锚框的数量、宽高比和大小等,使得网络难以训练,不易提升小目标的检测性能。近些年无锚机制的方法成为了研究热点,并在小目标检测上取得了较好效果。

    一种摆脱锚框机制的思路是将目标检测任务转换为关键点的估计,即基于关键点的目标检测方法。基于关键点的目标检测方法主要包含两个大类:基于角点的检测和基于中心的检测。基于角点的检测器通过对从卷积特征图中学习到的角点分组来预测目标边界框。DeNet[93]将目标检测定义为估计目标4个角点的概率分布,包括左上角、右上角、左下角和右下角(见图4(a))。首先利用标注数据来训练卷积神经网络,然后利用该网络来预测角点分布。之后,利用角点分布和朴素贝叶斯分类器来确定每个角点对应的候选区域是否包含目标。在DeNet之后,Wang等[94]提出了一种新的使用角点和中心点之间的连接来表示目标的方法,命名为PLN(Point linking network)。PLN首先回归与DeNet相似的4个角点和目标的中心点,同时通过全卷积网络预测关键点两两之间是否相连,然后将角点及其相连的中心点组合起来生成目标边界框。PLN对于稠密目标和具有极端宽高比率目标表现良好。但是,当角点周围没有目标像素时,PLN由于感受野的限制将很难检测到角点。继PLN之后,Law等[95]提出了一种新的基于角点的检测算法,命名为CornerNet。CornerNet将目标检测问题转换为角点检测问题,首先预测所有目标的左上和右下的角点,然后将这些角点进行两两匹配,最后利用配对的角点生成目标的边界框。CornetNet的改进版本——CornerNet‑Lite[96],从减少处理的像素数量和减少在每个像素上进行的计算数量两个角度出发进行改进,有效解决了目标检测中的两个关键用例:在不牺牲精度的情况下提高效率以及实时效率的准确性。与基于锚框的检测器相比,CornerNet系列具有更简洁的检测框架,在提高检测效率的同时获得了更高的检测精度。但是,该系列仍然会因为错误的角点匹配预测出大量不正确的目标边界框。

    为了进一步提高目标检测性能,Duan等[97]提出了一种基于中心预测的目标检测框架,称为CenterNet(见图4(b))。CenterNet首先预左上角和右下角的角点以及中心关键点,然后通过角点匹配确定边界框,最后利用预测的中心点消除角点不匹配引起的不正确的边界框。与CenterNet类似,Zhou等[98]通过对极值点和中心点进行匹配,提出了一种自下而上的目标检测网络,称为ExtremeNet。ExtremeNet首先使用一个标准的关键点估计网络来预测最上面、最下面、最左边、最右边的4个极值点和中心点,然后在5个点几何对齐的情况下对它们进行分组以生成边界框。但是ExtremeNet和CornerNet等基于关键点的检测网络都需要经过一个关键点分组阶段,这降低了算法整体的速度。针对这一问题,Zhou等[99]将目标建模为其一个单点,即边界框中心点,无需对构建点进行分组或其他后处理操作。然后在探测器使用关键点估计来查找中心点,并回归到所有其他对象属性,如大小、位置等。这一方法很好地平衡了检测的精度与速度。

    近年来,基于关键点的目标检测方法又有了新的扩展。Yang等[100]提出了一种名为代表点(RepPoints)的检测方法,提供了更细粒度的表示方式,使得目标可以被更精细地界定。同时,这种方法能够自动学习目标的空间信息和局部语义特征,一定程度上提升了小目标检测的精度(见图4(c))。更进一步地,Kong等[101]受到人眼的中央凹(视网膜中央区域,集中了绝大多数的视锥细胞,负责视力的高清成像)启发,提出了一种直接预测目标存在的可能性和边界框坐标的方法,该方法首先预测目标存在的可能性,并生成类别敏感语义图,然后为每一个可能包含目标的位置生成未知类别的边界框。由于摆脱了锚框的限制,FoveaBox对于小目标等具有任意横纵比的目标具备良好的鲁棒性和泛化能力,并在检测精度上也得到了较大提升。与FoveaBox相似,Tian等[102]使用语义分割的思想来解决目标检测问题,提出了一种基于全卷积的单级目标检测器FCOS(Fully convolutional one‑stage),避免了基于锚框机制的方法中超参过多、难以训练的问题(见图4(d))。此外,实验表明将两阶段检测器的第一阶段任务换成FCOS来实现,也能有效提升检测性能。而后,Zhu等[103]将无锚机制用于改进特征金字塔中的特征分配问题,根据目标语义信息而不是锚框来为目标选择相应特征,同时提高了小目标检测的精度与速度。Zhang等[104]则从基于锚框机制与无锚机制的本质区别出发,即训练过程中对于正负样本的定义不同,提出了一种自适应训练样本选择策略,根据对象的统计特征自动选择正反样本。针对复杂的场景下小型船舶难以检测的问题,Fu等[105]提出了一种新的检测方法——特征平衡与细化网络,采用直接学习编码边界框的一般无锚策略,消除锚框对于检测性能的负面影响,并使用基于语义信息的注意力机制平衡不同层次的多个特征,达到了最先进的性能。为了更有效地处理无锚框架下的多尺度检测,Yang等[106]提出了一种基于特殊注意力机制的特征金字塔网络,该网络能够根据不同大小目标的特征生成特征金字塔,进而更好地处理多尺度目标检测问题,显著提升了小目标的检测性能。

    2.6 其他优化策略

    在小目标检测这一领域,除了前文所总结的几个大类外,还有诸多优秀的方法。针对小目标训练样本少的问题,Kisantal等[33]提出了一种过采样策略,通过增加小目标对于损失函数的贡献,以此提升小目标检测的性能。除了增加小目标样本权重这一思路之外,另一种思路则是通过增加专用于小目标的锚框数量来提高检测性能。Zhang等[107]提出了一种密集锚框策略,通过在一个感受野中心设计多个锚框来提升小目标的召回率。与密集锚框策略相近,Zhang等[108]设计了一种基于有效感受野和等比例区间界定锚框尺度的方法,并提出一种尺度补偿锚框匹配策略来提高小人脸目标的召回率。增加锚框数量对于提升小目标检测精度十分有效,同时也额外增加了巨大的计算成本。Eggert等[109]从锚框尺度的优化这一角度入手,通过推导小目标尺寸之间的联系,为小目标选择合适的锚框尺度,在商标检测上获得了较好的检测效果。之后,Wang等[110]提出了一种基于语义特征的引导锚定策略,通过同时预测目标中心可能存在的位置及目标的的尺度和纵横比,提高了小目标检测的性能。此外,这种策略可以集成到任何基于锚框的方法中。但是,这些改进没有实质性地平衡检测精度与计算成本之间的矛盾。

    近些年来,随着计算资源的增加,越来越多的网络使用级联思想来平衡目标漏检率与误检率。级联这一思想来源已久[111],并在目标检测领域得到了广泛的应用。它采用了从粗到细的检测理念:用简单的计算过滤掉大多数简单的背景窗口,然后用复杂的窗口来处理那些更困难的窗口。随着深度学习时代的到来,Cai等[25]提出了经典网络Cascade R‑CNN,通过级联几个基于不同IoU阈值的检测网络达到不断优化预测结果的目的。之后,Li等[112]在Cascade R‑CNN的基础上进行了扩展,进一步提升了小目标检测性能。受到级联这一思想的启发,Liu等[113]提出了一种渐近定位策略,通过不断增加IoU阈值来提升行人检测的检测精度。另外,文献[114‑116]展现了级联网络在困难目标检测上的应用,也一定程度上提升了小目标的检测性能。

    另外一种思路则是分阶段检测,通过不同层级之间的配合平衡漏检与误检之间的矛盾。Chen等[117]提出一种双重探测器,其中第一尺度探测器最大限度地检测小目标,第二尺度探测器则检测第一尺度探测器无法识别的物体。进一步地,Drenkow等[118]设计了一种更加高效的目标检测方法,该方法首先在低分辨率下检查整个场景,然后使用前一阶段生成的显著性地图指导后续高分辨率下的目标检测。这种方式很好地权衡了检测精度和检测速度。此外,文献[119‑121]针对空中视野图像中的困难目标识别进行了前后景的分割,区分出重要区域与非重要区域,在提高检测性能的同时也减少了计算成本。

    优化损失函数也是一种提升小目标检测性能的有效方法。Redmon等[26]发现,在网络的训练过程中,小目标更容易受到随机误差的影响。随后,他们针对这一问题进行了改进[27],提出一种依据目标尺寸设定不同权重的损失函数,实现了小目标检测性能的提升。Lin等[122]则针对类别不均衡问题,在RetinaNet中提出了焦距损失,有效解决了训练过程中存在的前景‑背景类不平衡问题。进一步地,Zhang等[123]将级联思想与焦距损失相结合,提出了Cascade RetinaNet,进一步提高了小目标检测的精度。针对小目标容易出现的前景与背景不均衡问题,Deng等[58]则提出了一种考虑前景‑背景之间平衡的损失函数,通过全局重建损失和正样本块损失提高前景与背景的特征质量,进而提升了小目标检测的性能。

    为了权衡考虑小目标的检测精度和速度,Sun等[124]提出了一种多接受域和小目标聚焦弱监督分割网络,通过使用多个接收域块来关注目标及其相邻背景,并依据不同空间位置设置权重,以达到增强特征可辨识性的目的。此外,Yoo等[125]将多目标检测任务重新表述为边界框的密度估计问题,提出了一种混合密度目标检测器,通过问题的转换避免了真值框与预测框匹配以及启发式锚框设计等繁琐过程,也一定程度上解决了前景与背景不平衡的问题。

    3 小目标检测数据集盘点

    论文PDF下载

    后台回复:小目标检测综述,即可下载上述论文

    后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

    后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

    CVer-目标检测交流群成立

    扫码添加CVer助手,可申请加入CVer-目标检测 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

    一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

    ▲长按加小助手微信,进交流群

    ▲点击上方卡片,关注CVer公众号

    整理不易,请点赞和在看

    展开全文
  • SSD目标检测算法论文-英文原版,SSD: Single Shot MultiBox Detector
  • 整理打包28篇目标检测方面的论文,主要为one-stage类算法,含小目标检测、红外目标等
  • 有关目标分类、目标检测的相关论文集合,包含有rcnn系列,ssd、yolo等
  • ACF目标检测算法论文

    2017-08-19 16:34:10
    ACF目标检测算法是常用的目标检测算法之一,本文主要讲述了ACF目标检测的原理
  • 小目标检测论文阅读

    万次阅读 多人点赞 2018-08-26 11:15:33
    下面记录了一些论文的阅读总结: 算法发展历程: 传统图像算法: 传统图像算法使用hand-made feature,常用方法有SIFT、HOG、图像金字塔等...早期的目标检测框架(R-CNN、YOLO系列)对于小目标检测的效果都不甚良...

    下面记录了一些论文的阅读总结:

    算法发展历程:

    • 传统图像算法:

    传统图像算法使用hand-made feature,常用方法有SIFT、HOG、图像金字塔等。对于小目标的检测,传统图像算法有人工复杂度高,模型泛化性差等缺点,因此逐渐被深度学习模型取代。

    • 深度学习:
    1. 小目标检测在深度学习卷积神经网络模型中一直是一个难题。早期的目标检测框架(R-CNN、YOLO系列)对于小目标检测的效果都不甚良好。近两年提出了利用多层特征图的方法(特征金字塔、RNN思想、逐层预测),对小目标检测的效果产生了显著的提升。
    2. 现阶段主流算法:
    • 图像金字塔:较早提出对训练图片上采样出多尺度的图像金字塔。通过上采样能够加强小目标的细粒度特征,在理论上能够优化小目标检测的定位和识别效果。但基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有非常高的要求。计算机硬件发展至今也难有胜任。故该方法在实际应用中极少。
    • 逐层预测:该方法对于卷积神经网络的每层特征图输出进行一次预测,最后综合考量得出结果。同样,该方法也需要极高的硬件性能。
    • 特征金字塔:参考多尺度特征图的特征信息,同时兼顾了较强的语义特征和位置特征。该方法的优势在于,多尺度特征图是卷积神经网络中固有的过渡模块,堆叠多尺度特征图对于算法复杂度的增加微乎其微。
    • RNN思想:参考了RNN算法中的门限机制、长短期记忆等,同时记录多层次的特征信息(注:和特征金字塔有本质区别)。但RNN固有的缺陷是训练速度较慢(部分操作无法矩阵化)。(待补充原因)

     

    1 算法调研

    Hypercolumns for Object Segmentation and Fine-grained Localization

    1. 算法思想:
    • 传统做法:(CNN进行图像处理的这一批模型)使用卷积神经网络中最后一层的输出作为这张图像最终的feature map进行object classification。
    • 缺点:CNN网络的最后一层对类别层的语义信息比较敏感,而对扰动(姿态,光照,关节和位置)不敏感。细粒度的分析包括目标分割,姿态分析等,直接使用最后一层不是最优的选择。顶层卷积层的feature maps对信息进行了高度的提取,缺少进行精确定位的信息;中间层的feature maps具有精确定位的信息,但是不能够捕捉整个语义的信息。
    • 本文想法:将每一卷积层中得到的feature maps信息按照一定方式进行“汇总”,得到(超列)“hypercolumns”,用这个既包含了语义信息又包含了位置信息的向量来进行像素的精细化定位。
    • 具体做法:
      提取信息:传统CNN的流程得到每一层的feature maps
      → 统一大小:用双线性插值法(bilinear interpolation)来resize 每一个feature maps,完成上采样工作,达到统一大小的效果
      → 拼接矩阵得到hypercolumn:直接将需要的中间层的feature maps拼接起来得到一个很长的矩阵,矩阵中的每一个向量就表示了这个像素点的所有信息。这个矩阵上每个向量就代表了一个像素点的hypercolumn。(实际计算的时候并不是针对每一个pixel进行的,而是将图片进行划分为多个grid,针对每个grid进行这样的操作)
      → object classification:在每个grid上进行分类。

    每一个pixel用hypercolumn来表示,每一个hypercolumn都包含了需要层的feature maps中的信息

    1. 效果:

    用hypercolumns这种想法进行bounding box的识别,可以得到更加精确地效果。

    Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks

    • 算法思想:本文提出了内外网络结构,通过利用ROI区域的内外部的信息进行区域识别。在外部,通过两个IRNN网络整合ROI区域之外的图像信息;在内部,通过Skip Pooling提取多个尺度(conv3/conv4/conv5)上的信息;将内外部信息结合,用于分类和位置修偏。
    • 具体操作步骤

    1 通过ROI pooling层,将内部信息(conv3/conv4/conv5)以及外部信息固定到统一的大小;

    2 将得到的大小统一的特征信息分别进行尺度上的标准化后,进行串联,得到一个高维度的特征信息;

    3 对这个特征信息进行尺度和维度上的调整后,送入全连接层,进行分类和位置修偏。

    • 效果:通过结合上下文信息和多尺度特征信息,提高了小目标的检测精度。下图为将AP进行归一化之后的对比结果。最左侧的蓝色部分代表fast rcnn的检测精度;最右侧的粉红色部分代表本文的一个模型的检测精度。可以看出,小目标物体的检测精度有了极大提高。

    Feature Pyramid Network

    • 算法思想:作者提出了从上到下的路径和横向路径。从上到下的路径是指对网络结构深层的特征图进行上采样操作,使其跟网络浅层特征图大小一致,从而能够进行特征图堆叠。横向路径是指对每一卷积模块的最终特征图,采用1X1卷积核进行降通道操作, 减少特征图的个数。最终利用堆叠起来的多尺度特征图进行分类及定位的模型学习。
    • 算法效果:对于FPN做法的可行性,作者指出,浅层特征图的语义特征较弱,而位置特征较强;相反,深层特征图的语义特征较强, 但损失了精确地位置特征。同时利用浅层特征图和深层特征图,能够综合考量强位置特征和强语义特征,因此提升模型效果。

    Fully Convoluntional Network

    • 算法思想:整体思想与FPN相似。创新点在于(1)舍弃了全连接层,将全连接层换为等价的1X1卷积核,从而使得网络输入的图片尺度可以不一致。(2)对堆叠后的特征图继续进行上采样,使得其和原图大小一致。对上采样后的堆叠特征图,在其映射到原图位置的像素点上做分类预测。这样,可以基于原图做出精细的图像分割。
    • 算法效果:FCN开创了精细图像分割的先河,其之后的MASK-RCNN等算法也借鉴了其思想。对于小目标检测,可以通过像素点的分类,做出更精细的位置划分。

    Learning Object Detectors from Scratch with Gated Recurrent Feature Pyramids

    • DSOD算法思想:可以简单理解为SSD+DenseNet=DSOD。首先去掉了ROI Pooling,Faster-RCNN这类方法不收敛,SSD收敛,所以作者选择了SSD进行改进,之后加入DenseNet思想,特征会影响之后的layers,从而构建出了DSOD。

    缺陷:单层的特征金字塔只有一个尺度的特征表达,像SSD,FPN ,各层的特征相互独立,没有关联;另一重要限制在于当前最优的方法中的每层金字塔贡献出的监督信息是固定的。

    • GRP-DSOD算法思想:简而言之就是一种根据中间层不同尺度动态调整监督强度的目标检测方法。这种方法是DSOD方法的改进。针对上面的缺陷提出了以下两种方法改进。
      • 提出了recurent feature pyramid,通过拼接高水平的语义特征和低水平的空间特征到单个金字塔层中;于是在当前层拼接了下采样得来的细粒度信息以及上采样得来的粗粒度信息,使每个预测层含有丰富的多尺度特征。

    应用了一个门限机制,在小尺度上的目标很容易被细粒度特征(低水平)检测到,此时,从低水平特征得来的信号应该被增强 ,在大尺度上的目标很容易被粗粒度特征(高水平)检测到,此时,从高水平特征得来的信号应该被增强。

      • 算法效果:DSOD这种方法总结就一句话:作者不用预训练,一切从零开始撸起袖子干,照样干的和其他的state-of-art一样好!而GRP-DSOD的Map也有了一定的改进。

    以上是一些算法调研,最终针对项目我们使用了FPN+FasterRcnn,这个模型在Detectron中有demo。

    展开全文
  • 20年目标检测综述.pptx

    2020-02-29 10:59:35
    这份PPT是针对对应的顶会论文做的学习PPT,下载者可以通过它:①快速了解论文阅读方法②对目标检测有了一定了解③精美的PPT模板,可以拿去改做他用
  • ECCV2018目标检测论文

    2018-10-19 10:16:56
    ECCV2018最新目标检测(物体检测)论文全集,是研究计算机视觉深度学习必看论文
  • 视频目标检测论文

    千次阅读 2020-02-28 15:28:18
    记录一些略看的视频目标检测论文。 1.Sequence Level Semantics Aggregation for Video Object Detection(ICCV 2019) 论文链接:https://arxiv.org/abs/1907.06390v2 主要贡献:以faster rcnn为backbone设计了...

    记录一些略看的视频目标检测论文,持续更新。。。

    github:https://github.com/breezelj/video_object_detection_paper

    视频目标检测(video object detection)简单综述:https://blog.csdn.net/breeze_blows/article/details/105323491

    概要:目标检测已经做到很成熟了,但是视频目标检测确实还在发展之中,视频目标检测主要挑战在于在长视频中往往有些帧的质量非常差,比如目标物体出现以下情况,单纯的目标检测算法难以胜任(图片来自于FGFA论文)

     既然单帧图片进行检测效果不好,视频目标检测的主要考虑就是如何去融合更多的时空上面的特征,比如从bbox,frame,feature,proposal等level进行特征融合,从而弥补在训练或者检测中单帧得到的特征的不足。大概就是从上面level上面去融合特征,怎么去融合特征。

    数据集:常用的数据集就是ImageNet VID dataset, 其中训练集包含了3862个video snippets,验证集含有555个snippets。共有30个类,这些类别是ImageNet DET dataset类别的子集。有时候训练集也可以用ImageNet DET这30个类的图片集。

    评价标准:沿用目标检测中的mAP,但是会根据目标的速度分为mAP(slow), mAP(medium), mAP(fast), 划分标准按照FAFG论文中的方法为求当前帧与前后10帧的IOU的平均得分值score,the objects are divided into slow (score > 0.9), medium (score ∈ [0.7, 0.9]), and fast (score < 0.7) groups。

     

    目录

    1.Flow-Guided Feature Aggregation for Video Object Detection(ICCV 2017)

    2.Leveraging Long-Range Temporal Relationships Between Proposals for Video Object Detection(ICCV 2019)

    3.Sequence Level Semantics Aggregation for Video Object Detection(ICCV 2019)

    4.Temporal Context Enhanced Feature Aggregation for Video Object Detection

    5.Relation Distillation Networks for Video Object Detection

    6.Mining Inter-Video Proposal Relations for Video Object Detection


     

    1.Flow-Guided Feature Aggregation for Video Object Detection(ICCV 2017)

    论文链接:https://arxiv.org/abs/1703.10025v2

    主要贡献: 论文的主要算法流程如下图

     流程图中的Nfeat才用的是resnet101(其中最后一个block stride改为了1,采用了dilation conv),F(Ii, Ij )用的FlowNet, embedding features采用Embedding network, 按照文中的说法Embedding network(It has three layers: a 1 × 1 × 512 convolution, a 3 × 3 × 512 convolution, and a 1 × 1 × 2048 convolution. It is randomly initialized.) 最后detection network采用R-FCN。Nfeat会随着帧数不断的更新。

    最后是实验结果图,就想作者在文中说的,这个方法的速度还是有些慢的。

     

    其他 :

    • 物体速度越快,光流的效果就会越差
    • 只是融合了当前帧相邻的前后帧,是否有些局部,是否有一个更加全局的特征融合

     

    2.Leveraging Long-Range Temporal Relationships Between Proposals for Video Object Detection(ICCV 2019)

    论文链接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shvets_Leveraging_Long-Range_Temporal_Relationships_Between_Proposals_for_Video_Object_Detection_ICCV_2019_paper.pdf

    主要贡献:受non loca,relation network的启发设计了一个relation block来发掘视频序列中targetframe与support frames提取的proposal之间的关系,在这个relation block中还引入了feat norm以及一个graph loss进一步提高准确率

    主要框架图,这个图为了简化support frame只画了一帧。

     relation block的结构图

     

     对于图中的feat norm文中采用了两种方式,即uncentered and zero-centered normalizations. zerocentered normalization uses LayerNorm that includes additional learnable parameters,并且对比了效果,结果证明加了loss的 center-norm取得了更好的精度。

     对于文中的graph loss,一个好的矩阵G是满足当proposal xi,xj属于同一个instance的时候,Gij的值比较大,不属于同于个instance的时候,Gij的值比较小。loss公式如下。

     yij是lable,当xi与xj是不同的instance的时候值为0,否则值为1. 在featture norm之后||x_i||^2=||x_j||^2=1

     因为在featnorm之后G的值会被bounded,也就是值会比较小,所以在softmax之前会乘以常数10,

    文中还对relation block的位置进行了实验,(support source layer → target source layer(s)),即support与target的feature来自哪里的fc,其中fc6→{fc6, fc7}就对应着主要框架图中的结构,support feature来自fc6,target feature来自fc6,fc7,有两个relation block,可以看出这种情况下效果最好。

    最后backbone为resnet101的时候,mAP=81.0

    其他:

    • graph loss的作用是为了让相同proposal的feature尽可能的接近,从而取得更好的结果,从实验中看也确实取得了更好的效果,那是否可以理解为relation block是在用相同instance proposal的feature来强化target frame proposal,而弱化不同的呢,可以试试输出最后得到的每个support frame proposal对于target proposal的贡献
    • 实验中的graph loss差不多就是一个二分类的交叉熵,距离度量也是采用的L2,感觉可以考虑其他的损失函数形式和距离度量方法

     

    3.Sequence Level Semantics Aggregation for Video Object Detection(ICCV 2019)

    论文链接:https://arxiv.org/abs/1907.06390v2

    主要贡献:以faster rcnn为backbone设计了一个selsa模块来提高在视频目标检测数据集即VID中的精度,训练集是DET与VID。这个selsa模块其实就是一个attention模块,训练的时候采用三帧,旨在对rpn输出的proposal提取的roi_feature进行融合,即生成一个similarity(900*900, 三帧每帧提取300个proposal,矩阵的每个值含义为每两个proposal提取出来的特征的余弦距离)矩阵,使得相同物体的proposal得到的roi_feature之间的距离尽可能小,最后用这个similarity矩阵对原来的proposal得到的特征(900*1024, 1024是在roi_pool得到的特征900*256*7*7之后flatten,接着用了一个fc(256*7*7,1024))进行加权,使得最后的proposal提取出来的roi_feature更加具有上下文的特征。最后计算loss的时候,作者采取的方法也很暴力,直接去掉另外两帧得到的特征即得到(300*1024),接着在经过box_head(其实就是两个fc,reg_fc,cls_fc)计算损失。测试的时候采用21帧,计算第11帧的精度的时候其前后10帧都是随机从该sequence中选取的。

    贴一张文中的实验结果图

     

    整个网络结构其实就是faster rcnn提取的roi_feature之后接fc-selsa-fc-selsa-box_head, selsa模块pytorch代码待补充(分析与non local联系)。。。

    其他

    • 文中说这个selsa的attention模块得到的similarity矩阵有一种Spectral Clustering的思想,即将相同物体的proposal最后得到的特征尽可能聚集在一起,不同的尽可能分开,但是在代码中没有显式的体现出来
    • 训练的时候采用三帧,但是在进行proposal_target的时候只用到了一帧的gt,在计算最后的loss的时候直接把三帧得到的proposal特征900*300丢弃掉其他两帧的,是否还有其他处理方式
    • 开源代码中的backbone resnet101结构跟原来的resnet101有些不一样,在resnet101的block4提取出proposal并计算rpn loss,但是又在resnet的block5进行roi_pool,block5没有产生stride,而且由于没有stride,又为了增加感受野采用了dilation

     

    4.Temporal Context Enhanced Feature Aggregation for Video Object Detection

    论文详解:https://blog.csdn.net/breeze_blows/article/details/106966630

     

    5.Relation Distillation Networks for Video Object Detection

    论文详解:https://blog.csdn.net/breeze_blows/article/details/104709770

     

    6.Mining Inter-Video Proposal Relations for Video Object Detection

    论文详解:https://blog.csdn.net/breeze_blows/article/details/108796729

    展开全文
  • 计算机视觉领域目标检测必看论文,包括ResNet,R-CNN,SDD,YOLO等
  • 人脸目标检测的matlab实现,基于图像处理的算法,没有用到深度学习。 机器视觉基础、机器视觉之人脸目标检测
  • 六篇经典的综述介绍目标检测论文阅读,理解目标检测的相关技术进展以及未来的发展趋势
  • 点击上方,选择星标或置顶,不定期资源大放送!阅读大概需要15分钟Follow博主,每天更新前沿干货来源:机器之心CVPR 2020 会议上,有哪些目标检测论文值得关注?目标检测是计算机...

    点击上方,选择星标置顶,不定期资源大放送

    阅读大概需要15分钟

    Follow小博主,每天更新前沿干货

    来源:机器之心

    CVPR 2020 会议上,有哪些目标检测论文值得关注?

    目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。

    前不久结束的 CVPR 2020 会议在推动目标检测领域发展方面做出了一些贡献,本文就为大家推荐其中 6 篇有价值的目标检测论文。


    论文清单

    1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds

    2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

    3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

    4. Camouflaged Object Detection

    5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

    6. D2Det: Towards High-Quality Object Detection and Instance Segmentation

    1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds

    论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_A_Hierarchical_Graph_Network_for_3D_Object_Detection_on_Point_CVPR_2020_paper.pdf 

    这项研究提出了一种基于图卷积 (GConv) 的新型层次图网络 (HGNet),它用于三维目标检测任务,可直接处理原始点云进而预测三维边界框。HGNet 能够有效捕获点之间的关系,并利用多级语义进行目标检测。

    具体而言,该研究提出了新的 shape-attentive GConv (SA-GConv),它能通过建模点的相对几何位置来描述物体的形状,进而捕获局部形状特征。基于 SA-GConv 的 U 形网络捕获多层次特征,通过改进的投票模块(voting module)将这些特征映射到相同的特征空间中,进而生成候选框(proposal)。

    HGNet 主要包括三部分:

    • 基于 GConv 的 U 形网络(GU-net);

    • 候选框生成器;

    • 候选框推理模块(ProRe Module):使用全连接图对候选框进行推理。

    该研究提出的模型主要以 VoteNet 作为 backbone,并基于它提出了一系列改进。由下图可以看出:

    • 将 VoteNet 中的 PointNet++ 换成特征捕捉能力更强的 GCN;

    • 为 up-sample 的多层中的每一层都接上 voting 模块,整合多个尺度的特征;

    • 在 proposal 之间也使用 GCN 来增强特征的学习能力。

    实现细节

    本文提出了 Shape-attentive Graph Convolutions(SA-GConv),并且将这个卷积同时用在了 down-sampling pathway 和 up-sampling pathway 中。

    本文提出了一个 Proposal Reasoning Module,在 proposal 之间学习其特征之间的交互。

    不同模型在 SUN RGB-D V1 数据集上的实验结果如下所示:

    2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

    论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Ye_HVNet_Hybrid_Voxel_Network_for_LiDAR_Based_3D_Object_Detection_CVPR_2020_paper.pdf

    这篇论文提出了一种基于点云的自动驾驶三维目标检测 one-stage 网络——混合体素网络 (Hybrid Voxel Network, HVNet),通过在点级别上混合不同尺度的体素特征编码器 (VFE) 得到更好的体素特征编码方法,从而在速度和精度上得到提升。

    HVNet 采用的体素特征编码(VFE)方法包括以下三个步骤:

    • 体素化:将点云指定给二维体素网格;

    • 体素特征提取:计算网格相关的点级特征,然后将其输入到 PointNet 风格特征编码器;

    • 投影:将点级特征聚合为体素级特征,并投影到其原始网格。这就形成了一个伪图像特征图。

    该研究提出的 HVNet 架构包括:HVFE 混合体素特征提取模块;2D 卷积模块;以及检测模块,用来输出最后的预测结果。

    HVNet 整体架构及 HVFE 架构参见下图:

    不同模型在 KITTI 数据集上获得的结果如下表所示:

    3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

    • 论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Shi_Point-GNN_Graph_Neural_Network_for_3D_Object_Detection_in_a_CVPR_2020_paper.pdf

    • 项目地址:https://github.com/WeijingShi/Point-GNN

    基于点云的 3D 目标检测具有非常重要的应用价值,尤其是在自动驾驶领域。使用激光雷达传感器获得的 3D 点云数据描述了周围环境,使得 3D 目标检测能够比单纯使用 RBG 摄像头提供更多的目标信息(不仅有位置信息,还有距离信息)。

    该研究指出,以往使用 CNN 的方法处理点云数据时往往需要在空间划分 Grids,会出现大量的空白矩阵元素,并不适合稀疏点云;近来出现的类似 PointNet 的方法对点云数据进行分组和采样,取得了不错的结果,但计算成本太大。于是该研究提出一种新型 GNN 网络——Point-GNN。

    Point-GNN 方法主要分为三个阶段,如下图所示:

    • 图构建:使用体素降采样点云进行图构建;

    • GNN 目标检测(T 次迭代);

    • 边界框合并和评分。

    以下是不同模型在 KITTI 数据集上获得的结果:

    4. Camouflaged Object Detection

    • 论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Camouflaged_Object_Detection_CVPR_2020_paper.pdf 

    • 项目地址:https://github.com/DengPingFan/SINet/

    这篇论文解决的问题是:如何检测嵌入在周围环境中的物体,即伪装目标检测(camouflaged object detection,COD)。 

    此外,该研究还创建了一个名为 COD10K 的新型数据集。它包含 10,000 张图像,涵盖许多自然场景中的伪装物体。该数据集具有 78 个类别,每张图像均具备类别标签、边界框、实例级标签和抠图级(matting-level)标签。

    下图展示了 COD10K 数据集中的样本示例及其难点。

    为了解决伪装目标检测问题,该研究提出了一种叫做搜索识别网络(Search Identification Network,SINet)的 COD 框架。

    该网络有两个主要模块:

    • 搜索模块(SM),用于搜索伪装的物体;

    • 识别模块(IM),用于检测该物体。

    SINet 架构如下所示:

    不同模型在多个数据集上的结果参见下表:

    5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

    论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf

    传统的目标检测算法需要大量数据标注才能训练模型,而数据标注不但耗费人力,可能还会因为标注质量而影响训练效果。

    这篇论文提出了一种「小样本」目标检测网络,旨在通过少量标注数据使模型有效检测到从未见过的目标。

    该方法的核心包括三点:Attention-RPN、Multi-Relation Detector 和 Contrastive Training strategy,利用小样本 support set 和 query set 的相似性来检测新的目标,同时抑制 background 中的错误检测。

    该团队还贡献了一个新的数据集,该数据集包含 1000 个类别,且具备高质量的标注。

    该研究提出一个新型注意力网络,能在 RPN 模块和检测器上学习 support set 和 query set 之间的匹配关系;下图中的 weight shared network 有多个分支,可以分为两类,一类用于 query set,另一类用于 support set(support set 的分支可以有多个,用来输入不同的 support 图像,图中只画了一个),处理 query set 的分支是 Faster RCNN 网络。

    该研究提出的网络架构。

    作者还提出用 Attention RPN 来过滤掉不属于 support set 的目标。

    以下是不同模型在 ImageNet 数据集上的实验结果:

    以下是基于一些数据集得到的观察结果:

    6. D2Det: Towards High-Quality Object Detection and Instance Segmentation

    • 论文地址: https://openaccess.thecvf.com/content_CVPR_2020/papers/Cao_D2Det_Towards_High_Quality_Object_Detection_and_Instance_Segmentation_CVPR_2020_paper.pdf 

    • 项目地址:https://github.com/JialeCao001/D2Det

    这篇论文提出了一种提高定位精度和分类准确率的方法 D2Det,以提升目标检测的效果。针对这两项挑战,该研究分别提出了 dense local regression(DLR)和 discriminative RoI pooling(DRP)两个模块。其中 DLR 与 anchor-free 方法 FCOS 的 detect loss 类似,DRP 则是利用了 deformable convolution 的思想,分别从第一阶段和第二阶段提取准确的目标特征区域,进而获得相应的性能提升。具体方法流程如下图所示:

    在这两个阶段中,第一阶段采用区域建议网络(RPN),而第二阶段采用分类和回归的方法,分类方法基于池化,局部回归则用于物体的定位。

    以下是不同模型在 MS COCO 数据集上的结果:

    计算机视觉顶会 CVPR 2020 提供了很多目标检测等领域的研究论文,如果你想获取更多论文信息,请点击以下网址:https://openaccess.thecvf.com/CVPR2020。

    重磅!DLer-目标检测交流群已成立!

    为了能给大家提供一个更好的交流学习平台!针对特定研究方向,我建立了目标检测微信交流群,本群旨在交流目标检测、密集人群检测、关键点检测、人脸检测、人体姿态估计等内容。

    进群请备注:研究方向+学校/公司+昵称(如目标检测+上交+小明

    广告商、博主请绕道!

    ???? 长按识别,即可进群!

    展开全文
  • CVPR2021目标检测方向论文

    千次阅读 多人点赞 2021-03-02 09:39:18
    CVPR2021录取结果刚出来,不过离全部的paper list还有一段时间,接下来应该会有人提前将论文贴出来,准备陆续收集相关的论文研究起来。 [1]Distilling Object Detectors via Decoupled Features [2]Positive-...
  • ICCV2021目标检测方向论文

    千次阅读 2021-08-03 10:45:05
    研究一下ICCV2021目标检测方向的论文。 [1]GraphFPN: Graph Feature Pyramid Network for Object Detection paper:https://arxiv.org/abs/2108.00580 code: TBD [2]SimROD: A Simple Adaptation Method for ...
  • 小目标检测文章总结

    万次阅读 多人点赞 2018-10-16 10:24:47
    由于最近需要写一篇小目标检测的综述,但是在认真调研之后,发现关于小目标检测的文章真的不多,但是又不想直接放弃度过的文章,所以就写成一篇博客来纪念一下。 在现有的目标检测的文献中,大多数是针对通用的目标...
  • 我们在这个系列中的前几篇文章中已经了解了很多可以用于高光谱目标检测的方法了,比如MF、ACE、AMF、ASD、OSP、CEM等等,这些方法如果给他们分个类的话,大概可以分成三类。 第一类是把目标检测问题转化为假设检验...
  •  P-GAN将目标的特征映射到相似的大目标特征上来缩小差别,便能将目标足够近似到大目标来欺骗判别器,达到小目标检测的目的。 9、 Feature Pyramid Networks for Object Detection  特征金字塔网络。 10...
  • 小目标检测

    千次阅读 2021-12-14 10:22:48
    小目标检测 参考论文:地址 目标定义 相对尺度定义 从目标与图像的相对比对目标进行定义。Chen等提出了一个针对目标的数据集,对目标进行定义:同一类别中,所有目标实例的相对面积,即边界框面积与图像...
  • 目标检测简介及论文代码推荐

    千次阅读 2019-07-06 19:14:01
    以下参考博文:... ... 视觉目标跟踪基本流程: 视觉目标(单目标)跟踪任务是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置 跟踪流程: ...
  • 目标检测经典论文详解

    千次阅读 2021-10-29 10:58:17
    目标检测论文解读四(检测蒸馏论文三篇) Mimicking Very Efficient Network for Object Detection General Instance Distillation for Object Detection Multi-Scale Aligned Distillation for
  • 点云目标检测 SPOT: Selective Point Cloud Voting for Better Proposal in Point Cloud Object Detection 作者 | Hongyuan Du, Linjun Li, Bo Liu, and Nuno Vasconcelos 单位 | 加利福尼亚大学圣迭戈分校 论文 |...
  • 至2018年经典基于卷积神经网络的目标检测与识别论文,几乎包括所有必须看的论文
  • CVPR2018目标检测论文

    2018-08-29 16:54:13
    CVPR2018目标检测 object detection 相关论文最新论文
  • 样本目标检测--Meta-RCNN论文阅读

    千次阅读 2020-11-18 14:57:45
    目录 介绍 网络框架 数据集准备 创新点 损失函数 训练和测试过程 实验 结论 介绍 网络框架 ...分为support set和Query set,对于第i次任务,K ways和N images随机从Lc中选择,建立成 ......
  • 选自 | heartbeat作者 | Derrick Mwiti转自| 机器之心参与 | 陈萍CVPR 2020 会议上,有哪些目标检测论文值得关注?目标检测是计算机视觉中的经典问题之...
  • 一文看尽 27 篇 CVPR2021 2D 目标检测论文

    千次阅读 多人点赞 2021-07-14 00:08:28
    点击 机器学习算法与Python学习 ,选择加星标精彩内容不迷路编辑丨极市平台6月25日,CVPR 2021 大会圆满结束,随着 CVPR 2021 最佳论文的出炉,本次大会所接收的论文也...
  • 目标检测算法——小目标检测

    千次阅读 2021-07-01 18:35:25
    一、定义 1、以物体检测领域的通用数据集COCO...1、包含目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测。 2、由目标覆盖的区域更,这样目标的位置会缺少多样性。我们推测这使得目标
  • 为了提高小目标检测的准确性,我们提出了一种基于上下文的目标检测方法。该方法通过融合多尺度特征,利用不同层次的附加特征作为上下文信息。我们还提出了一种基于注意力机制的目标检测方法,该方法能够聚焦于图像中...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 78,354
精华内容 31,341
关键字:

小目标检测最新论文