精华内容
下载资源
问答
  • 高中语文教学研讨激发兴趣方法之分解目标各个击破增强成就素材
  • 针对Faster R-CNN算法在目标检测中准确率不高的问题,先对数据进行增强处理;然后对提取的特征图进行裁剪,利用双线性插值法代替兴趣区域池化操作,分类时采用软非极大值抑制(Soft-NMS)算法。实验结果表明,该算法在...
  • 同时更改网络结构控制参数数量,将图片不同层次的特征融合计算,应用兴趣区域池化层规格化前层特征,最后经过分类层和回归层得到目标框的置信度以及修正参数。实验表明,改进模型能够在保证时间效率的前提下增强...
  • 目标检测的增强算法 Augmentation for small object detection 摘要 近年来,目标检测取得了令人瞩目的进展。尽管有了这些改进,但在检测小目标和大目标之间的性能仍有很大的差距。本文在一个具有挑战性的数据集上...

    小目标检测的增强算法

    Augmentation for small object detection

    摘要

    近年来,目标检测取得了令人瞩目的进展。尽管有了这些改进,但在检测小目标和大目标之间的性能仍有很大的差距。本文在一个具有挑战性的数据集上分析了当前最先进的模型Mask RCNN,MS COCO。结果表明,小真实目标与预测锚之间的重叠度远低于期望的IoU阈值。本文推测这是由于两个因素造成的:(1)只有少数图像包含小对象,并且(2)即使在包含它们的每个图像中,小对象也不足以出现。因此,本文建议用小对象对这些图像进行过采样,并通过多次复制粘贴小对象来增强每个图像。它允许本文在大物体和小物体上权衡探测器的质量。本文评估了不同的粘贴增强策略,最终,本文在实例分割和小目标检测方面分别比MS-COCO上的现有方法提高了9.7%和7.1%。

    1. Introduction

    本文关注的是最先进的物体探测器Mask R-CNN[18],一个具有挑战性的数据集,COCO女士。本文注意到这个数据集关于小对象的两个属性。首先,本文观察到数据集中包含小对象的图像相对较少,这可能会使任何检测模型偏向于更集中于中大型对象。其次,小物体覆盖的区域要小得多,这意味着小物体的位置缺乏多样性。本文推测,这使得当小目标出现在图像中不易被探测的部分时,目标检测模型很难在测试时间内推广到小目标。本文通过对包含小物体的图像进行过采样来解决第一个问题。第二个问题通过在包含小对象的每个图像中多次复制粘贴小对象来解决。粘贴每个对象时,本文确保粘贴的对象不会与任何现有对象重叠。这增加了小对象位置的多样性,同时确保这些对象出现在正确的上下文中,如图3所示。每幅图像中小物体数量的增加进一步解决了少量正匹配锚的问题,本文在第3节中对其进行了定量分析。与目前最新的基于MS-COCO的Mask-R-CNN方法相比,本文在实例分割和小目标检测方面分别取得了9.7%和7.1%的相对改进。

    在这里插入图片描述
    2. Related Work

    实例分割实例分割超出了对象检测的范围,需要预测每个对象的准确掩码。多任务网络级联(MNC)[9]构建一个预测和屏蔽的级联。全卷积实例感知语义分割(FCIS)[23]是一个全卷积模型,它计算每个感兴趣区域共享的位置敏感得分图。[14] ,这也是一种完全卷积的方法,学习像素嵌入。Mask R-CNN[18]扩展了FPN模型的一个分支,用于预测掩模,并引入了新的不同裁剪操作,用于对象检测和实例分割。

    可以通过提高输入图像分辨率[7,26]或将高分辨率特征与低分辨率图像的高维特征融合来处理检测小目标的小目标[36,2,5,27]。然而,这种使用更高分辨率的方法增加了计算开销,并且没有解决大小对象之间的不平衡。[22]取而代之的是,使用世代对抗网络(GAN)在复杂网络中构建特征,在交通标志和行人检测的背景下,这些特征在小物体和大物体之间是不可区分的。[12] 使用基于区域建议网络中不同分辨率层的不同锚定比例。[13] 根据锚定大小的正确分数移动图像特征以覆盖它们之间的间隙。[6,33,8,19]裁剪小对象建议时添加上下文。
    在这里插入图片描述

    3. Identifying issues with detecting small objects

    在这一部分中,本文首先概述了MS-COCO数据集和在本文的实验中使用的目标检测模型。然后讨论了MS-COCO数据集的问题和训练中使用的锚匹配过程,这有助于小目标检测的困难。

    在这里插入图片描述
    在这里插入图片描述

    4. Result and Analysis

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    5.Conclusion

    本文研究了小目标检测问题。本文发现,小目标平均精度差的原因之一是训练数据中缺少小目标的表示。这尤其适用于现有的最先进的物体探测器,它要求有足够的物体供预测的锚在训练期间匹配。为了克服这个问题,本文提出了两种扩充原始MS-COCO数据库的策略。首先,本文展示了在训练过程中,通过对包含小对象的图像进行过采样,可以很容易地提高对小对象的性能。其次,提出了一种基于复制粘贴小对象的增强算法。实验证明,与Mask R-CNN在MS-COCO上获得的最新技术相比,实例分割和小目标检测分别提高了9.7%和7.1%。正如实验所证实的,所提出的一套增强方法可以在预测大小物体的质量之间进行权衡。

    展开全文
  • 目标检测(Object Detection)

    万次阅读 多人点赞 2020-11-20 19:38:58
    文章目录目标检测(Object Detection)一、基本概念1. 什么是目标检测2. 目标检测的核心问题3. 目标检测算法分类1)Tow Stage2)One Stage4. 目标检测应用1)人脸检测2)行人检测3)车辆检测4)遥感检测二、目标检测...

    目标检测(Object Detection)

    一、基本概念

    1. 什么是目标检测

    目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。

    计算机视觉中关于图像识别有四大类任务:

    (1)分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。

    (2)定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。

    (3)检测-Detection:解决“在哪里?是什么?”的问题,即定位出这个目标的位置并且知道目标物是什么。

    (4)分割-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像素属于哪个目标物或场景”的问题。

    所以,目标检测是一个分类、回归问题的叠加。

    2. 目标检测的核心问题

    (1)分类问题:即图片(或某个区域)中的图像属于哪个类别。

    (2)定位问题:目标可能出现在图像的任何位置。

    (3)大小问题:目标有各种不同的大小。

    (4)形状问题:目标可能有各种不同的形状。

    3. 目标检测算法分类

    基于深度学习的目标检测算法主要分为两类:Two stage和One stage。

    1)Tow Stage

    先进行区域生成,该区域称之为region proposal(简称RP,一个有可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。

    任务流程:特征提取 --> 生成RP --> 分类/定位回归。

    常见tow stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。

    2)One Stage

    不用RP,直接在网络中提取特征来预测物体分类和位置。

    任务流程:特征提取–> 分类/定位回归。

    常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

    4. 目标检测应用

    1)人脸检测

    • 智能门控
    • 员工考勤签到
    • 智慧超市
    • 人脸支付
    • 车站、机场实名认证
    • 公共安全:逃犯抓捕、走失人员检测

    2)行人检测

    • 智能辅助驾驶
    • 智能监控
    • 暴恐检测(根据面相识别暴恐倾向)
    • 移动侦测、区域入侵检测、安全帽/安全带检测

    3)车辆检测

    • 自动驾驶
    • 违章查询、关键通道检测
    • 广告检测(检测广告中的车辆类型,弹出链接)

    4)遥感检测

    • 大地遥感,如土地使用、公路、水渠、河流监控

    • 农作物监控

    • 军事检测

    二、目标检测原理

    目标检测分为两大系列——RCNN系列和YOLO系列,RCNN系列是基于区域检测的代表性算法,YOLO是基于区域提取的代表性算法,另外还有著名的SSD是基于前两个系列的改进。

    1. 候选区域产生

    很多目标检测技术都会涉及候选框(bounding boxes)的生成,物体候选框获取当前主要使用图像分割与区域生长技术。区域生长(合并)主要由于检测图像中存在的物体具有局部区域相似性(颜色、纹理等)。目标识别与图像分割技术的发展进一步推动有效提取图像中信息。

    1)滑动窗口

    通过滑窗法流程图可以很清晰理解其主要思路:首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
    滑窗法简单易于理解,但是不同窗口大小进行图像全局搜索导致效率低下,而且设计窗口大小时候还需要考虑物体的长宽比。所以,对于实时性要求较高的分类器,不推荐使用滑窗法。

    2)选择性搜索

    ① 什么是选择性搜索

    滑窗法类似穷举进行图像子区域搜索,但是一般情况下图像中大部分子区域是没有物体的。学者们自然而然想到只对图像中最有可能包含物体的区域进行搜索以此来提高计算效率。选择搜索(selective search,简称SS)方法是当下最为熟知的图像bounding boxes提取算法,由Koen E.A于2011年提出。
    选择搜索算法的主要思想:图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此,选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes。首先,对输入图像进行分割算法产生许多小的子区域。其次,根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并,不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形),这些子区域外切矩形就是通常所说的候选框。

    ② 选择搜索流程
    • step0:生成区域集R
    • step1:计算区域集R里每个相邻区域的相似度S={s1, s2,…}
    • step2:找出相似度最高的两个区域,将其合并为新集,添加进R
    • step3:从S中移除所有与step2中有关的子集
    • step4:计算新集与所有子集的相似度
    • step5:跳至step2,直至S为空
    ③ 选择搜索优点
    • 计算效率优于滑窗法
    • 由于采用子区域合并策略,所以可以包含各种大小的疑似物体框
    • 合并区域相似的指标多样性,提高了检测物体的概率

    2. 数据表示

    经过标记后的样本数据如下所示:

    预测输出可以表示为:

    y = [ p c b x b y b w b h C 1 C 2 C 3 ] , y t r u e = [ 1 40 45 80 60 0 1 0 ] , y p r e d = [ 0.88 41 46 82 59 0.01 0.95 0.04 ] y = \left[ \begin{matrix} p_c \\ b_x \\ b_y \\ b_w \\ b_h \\ C_1 \\ C_2 \\ C_3 \\ \end{matrix} \right] , y_{true} = \left[ \begin{matrix} 1 \\ 40 \\ 45 \\ 80 \\ 60 \\ 0 \\ 1 \\ 0 \\ \end{matrix} \right] , y_{pred} = \left[ \begin{matrix} 0.88 \\ 41 \\ 46 \\ 82 \\ 59 \\ 0.01 \\ 0.95 \\ 0.04 \\ \end{matrix} \right] y=pcbxbybwbhC1C2C3,ytrue=140458060010,ypred=0.88414682590.010.950.04

    其中, p c p_c pc为预测结果的置信概率, b x , b y , b w , b h b_x, b_y, b_w, b_h bx,by,bw,bh为边框坐标, C 1 , C 2 , C 3 C_1, C_2, C_3 C1,C2,C3为属于某个类别的概率。通过预测结果、实际结果,构建损失函数。损失函数包含了分类、回归两部分组成。

    3. 效果评估

    使用IoU(Intersection over Union,交并比)来判断模型的好坏。所谓交并比,是指预测边框、实际边框交集和并集的比率,一般约定0.5为一个可以接收的值。

    4. 非极大值抑制

    预测结果中,可能多个预测结果间存在重叠部分,需要保留交并比最大的、去掉非最大的预测结果,这就是非极大值抑制(Non-Maximum Suppression,简写作NMS)。如下图所示,对同一个物体预测结果包含三个概率0.8/0.9/0.95,经过非极大值抑制后,仅保留概率最大的预测结果。

    三、目标检测模型

    1. R-CNN系列

    1)R-CNN

    ① 定义

    R-CNN(全称Regions with CNN features) ,是R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。比如R-CNN pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用selective search提取region proposals,使用SVM实现分类。

    ② 流程
    • 预训练模型。选择一个预训练 (pre-trained)神经网络(如AlexNet、VGG)。
    • 重新训练全连接层。使用需要检测的目标重新训练(re-train)最后全连接层(connected layer)。
    • 提取 proposals并计算CNN 特征。利用选择性搜索(Selective Search)算法提取所有proposals(大约2000幅images),调整(resize/warp)它们成固定大小,以满足 CNN输入要求(因为全连接层的限制),然后将feature map 保存到本地磁盘。
    • 训练SVM。利用feature map 训练SVM来对目标和背景进行分类(每个类一个二进制SVM)
    • 边界框回归(Bounding boxes Regression)。训练将输出一些校正因子的线性回归分类器
    ③ 效果
    • R-CNN在VOC 2007测试集上mAP达到58.5%,打败当时所有的目标检测算法
    ④ 缺点
    • 重复计算,每个region proposal,都需要经过一个AlexNet特征提取,为所有的RoI(region of interest)提取特征大约花费47秒,占用空间
    • selective search方法生成region proposal,对一帧图像,需要花费2秒
    • 三个模块(提取、分类、回归)是分别训练的,并且在训练时候,对于存储空间消耗较大

    2)Fast R-CNN

    ① 定义

    Fast R-CNN是基于R-CNN和SPPnets进行的改进。SPPnets,其创新点在于只进行一次图像特征提取(而不是每个候选区域计算一次),然后根据算法,将候选区域特征图映射到整张图片特征图中。

    ② 流程
    • 使用selective search生成region proposal,大约2000个左右区域候选框
    • (joint training)缩放图片的scale得到图片金字塔,FP得到conv5的特征金字塔
    • (joint training)对于每个scale的每个ROI,求取映射关系,在conv5中剪裁出对应的patch。并用一个单层的SSP layer来统一到一样的尺度(对于AlexNet是6*6)
    • (joint training) 继续经过两个全连接得到特征,这特征又分别共享到两个新的全连接,连接上两个优化目标。第一个优化目标是分类,使用softmax,第二个优化目标是bbox regression,使用了一个平滑的L1-loss
    • 测试时需要加上NMS处理:利用窗口得分分别对每一类物体进行非极大值抑制提出重叠建议框,最终得到每个类别中回归修正后的得分最高的窗口
    ③ 改进
    • 和RCNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。在VGG16上,Fast RCNN训练速度是RCNN的9倍,测试速度是RCNN的213倍;训练速度是SPP-net的3倍,测试速度是SPP-net的3倍
    • Fast RCNN在PASCAL VOC 2007上准确率相差无几,约在66~67%之间
    • 加入RoI Pooling,采用一个神经网络对全图提取特征
    • 在网络中加入了多任务函数边框回归,实现了端到端的训练
    ④ 缺点
    • 依旧采用selective search提取region proposal(耗时2~3秒,特征提取耗时0.32秒)
    • 无法满足实时应用,没有真正实现端到端训练测试
    • 利用了GPU,但是region proposal方法是在CPU上实现的

    3)Faster RCNN

    经过R-CNN和Fast-RCNN的积淀,Ross B.Girshick在2016年提出了新的Faster RCNN,在结构上将特征抽取、region proposal提取, bbox regression,分类都整合到了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。

    ① 整体流程
    • Conv Layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的卷积/激活/池化层提取图像的特征,形成一个特征图,用于后续的RPN层和全连接层。
    • Region Proposal Networks(RPN)。RPN网络用于生成候选区域,该层通过softmax判断锚点(anchors)属于前景还是背景,在利用bounding box regression(包围边框回归)获得精确的候选区域。
    • RoI Pooling。该层收集输入的特征图和候选区域,综合这些信息提取候选区特征图(proposal feature maps),送入后续全连接层判定目标的类别。
    • Classification。利用取候选区特征图计算所属类别,并再次使用边框回归算法获得边框最终的精确位置。
    ② Anchors

    Anchors(锚点)指由一组矩阵,每个矩阵对应不同的检测尺度大小。如下矩阵:

    [[ -84.  -40.  99.  55.]
     [-176.  -88. 191. 103.]
     [-360. -184. 375. 199.]
     [ -56.  -56.  71.  71.]
     [-120. -120. 135. 135.]
     [-248. -248. 263. 263.]
     [ -36.  -80.  51.  95.]
     [ -80. -168.  95. 183.]
     [-168. -344. 183. 359.]]
    

    其中每行4个值( x 1 , y 1 , x 2 , y 2 x_1, y_1, x_2, y_2 x1,y1,x2,y2),对应矩形框左上角、右下角相对于中心点的偏移量。9个矩形共有三种形状,即1:1, 1:2, 2:1,即进行多尺度检测。

    例如,一张800*600的原始图片,经过VGG下采样后(生成特征矩阵)16倍大小,大小变为50*38,每个点设置9个anchor,则总数为:

    ceil(800 / 16) * ceil(600 / 16) * 9 = 50 * 38 * 9 = 17100
    
    ③ Bounding box regression

    物体识别完成后,通过一种方式对外围框进行调整,使得和目标物体更加接近。

    ④ 损失函数

    对一个图像的损失函数,是一个分类损失函数与回归损失函数的叠加:
    L ( { p i } , { t i } ) = 1 N c l s ∑ L c l s ( p i , p i ∗ ) + λ 1 N r e g ∑ p i ∗ L r e g ( t i , t i ∗ ) L(\{p_i\},\{t_i\}) = \frac{1}{N_{cls}}\sum{L_{cls}(p_i, p_i^*)} + \lambda\frac{1}{N_{reg}}\sum{p_i^*L_{reg}(t_i, t_i^*)} L({pi},{ti})=Ncls1Lcls(pi,pi)+λNreg1piLreg(ti,ti)

    • i是一个mini-batch中anchor的索引

    • p i p_i pi是anchor i 为目标的预测概率

    • ground truth标签 p i ∗ p_i^* pi就是1,如果anchor为负, p i ∗ p_i^* pi就是0

    • t i t_i ti是一个向量,表示预测的包围盒的4个参数化坐标

    • N c l s N_{cls} Ncls是与正anchor对应的ground truth的坐标向量

    • N r e g N_{reg} Nreg为anchor位置的数量(大约2400), λ \lambda λ=10

    分类损失函数:
    L c l s ( p i , p i ∗ ) = − l o g [ p i ∗ p i + ( 1 − p i ∗ ) ( 1 − p i ) ] L_{cls}(p_i, p_i^*) = -log[p_i^*p_i + (1-p_i^*)(1-p_i)] Lcls(pi,pi)=log[pipi+(1pi)(1pi)]
    位置损失函数:
    L r e g ( t i , t i ∗ ) = R ( t i − t i ∗ ) L_{reg}(t_i, t_i^*) = R(t_i - t_i^*) Lreg(ti,ti)=R(titi)
    其中:
    R = s m o o t h L 1 ( x ) = { 0.5 x 2    i f ∣ x ∣ < 1 ∣ x ∣ − 0.5    o t h e r w i s e R = smooth_{L1}(x) = \begin{cases}{0.5x^2} \ \ if |x| < 1\\ |x|-0.5 \ \ otherwise \end{cases} R=smoothL1(x)={0.5x2  ifx<1x0.5  otherwise

    ⑤ 改进
    • 在VOC2007测试集测试mAP达到73.2%,目标检测速度可达5帧/秒
    • 提出Region Proposal Network(RPN),取代selective search,生成待检测区域,时间从2秒缩减到了10毫秒
    • 真正实现了一个完全的End-To-End的CNN目标检测模型
    • 共享RPN与Fast RCNN的特征
    ⑥ 缺点
    • 还是无法达到实时检测目标
    • 获取region proposal, 再对每个proposal分类计算量还是较大

    2. YOLO系列

    1)YOLOv1(2016)

    ① 基本思想

    YOLO(You Only Look Once )是继RCNN,fast-RCNN和faster-RCNN之后,Ross Girshick针对DL目标检测速度问题提出的另一种框架,其核心思想是生成RoI+目标检测两阶段(two-stage)算法用一套网络的一阶段(one-stage)算法替代,直接在输出层回归bounding box的位置和所属类别。

    之前的物体检测方法首先需要产生大量可能包含待检测物体的先验框, 然后用分类器判断每个先验框对应的边界框里是否包含待检测物体,以及物体所属类别的概率或者置信度,同时需要后处理修正边界框,最后基于一些准则过滤掉置信度不高和重叠度较高的边界框,进而得到检测结果。这种基于先产生候选区再检测的方法虽然有相对较高的检测准确率,但运行速度较慢。

    YOLO创造性的将物体检测任务直接当作回归问题(regression problem)来处理,将候选区和检测两个阶段合二为一。只需一眼就能知道每张图像中有哪些物体以及物体的位置。下图展示了各物体检测系统的流程图。

    实际上,YOLO并没有真正去掉候选区,而是采用了预定义候选区的方法,也就是将图片划分为7*7个网格,每个网格允许预测出2个边框,总共49*2个bounding box,可以理解为98个候选区域,它们很粗略地覆盖了图片的整个区域。YOLO以降低mAP为代价,大幅提升了时间效率。

    每个网格单元预测这些框的2个边界框和置信度分数。这些置信度分数反映了该模型对框是否包含目标的可靠程度,以及它预测框的准确程度。置信度定义为:
    Pr ⁡ ( Object )   ∗   IOU pred truth \Pr(\textrm{Object})\ *\ \textrm{IOU}_{\textrm{pred}}^{\textrm{truth}} Pr(Object)  IOUpredtruth
    如果该单元格中不存在目标,则置信度分数应为零。否则,我们希望置信度分数等于预测框与真实值之间联合部分的交集(IOU)。

    每个边界框包含5个预测: x x x y y y w w w h h h和置信度。 ( x , y ) (x,y) (xy)坐标表示边界框相对于网格单元边界框的中心。宽度和高度是相对于整张图像预测的。最后,置信度预测表示预测框与实际边界框之间的IOU。

    每个网格单元还预测 C C C个条件类别概率 Pr ⁡ ( Class i ∣ Object ) \Pr(\textrm{Class}_i | \textrm{Object}) Pr(ClassiObject)。这些概率以包含目标的网格单元为条件。每个网格单元我们只预测的一组类别概率,而不管边界框的的数量 B B B是多少。

    ② 网络结构

    YOLOv1网络有24个卷积层,后面是2个全连接层。我们只使用 1 × 1 1 \times 1 1×1降维层,后面是 3 × 3 3 \times 3 3×3卷积层。如下图所示:

    为了快速实现快速目标检测,YOLOV1还训练了快速版本。快速YOLO使用具有较少卷积层(9层而不是24层)的神经网络,在这些层中使用较少的滤波器。除了网络规模之外,YOLO和快速YOLO的所有训练和测试参数都是相同的。网络的最终输出是7*7*30(1470)的预测张量。

    ③ 训练过程与细节

    (1)预训练。采用前20个卷积层、平均池化层、全连接层进行了大约一周的预训练;

    (2)输入。输入数据为224*224和448*448大小的图像;

    (3)采用相对坐标。通过图像宽度和高度来规范边界框的宽度和高度,使它们落在0和1之间;边界框 x x x y y y坐标参数化为特定网格单元位置的偏移量,边界也在0和1之间;

    (4)损失函数

    • 损失函数由坐标预测、是否包含目标物体置信度、类别预测构成;
    • 其中 1 i o b j 1_i^{obj} 1iobj表示目标是否出现在网格单元 i i i中,表示 1 i j o b j 1_{ij}^{obj} 1ijobj网格单元 i i i中的第 j j j个边界框预测器“负责”该预测;
    • 如果目标存在于该网格单元中(前面讨论的条件类别概率),则损失函数仅惩罚分类错误;
    • 如果预测器“负责”实际边界框(即该网格单元中具有最高IOU的预测器),则它也仅惩罚边界框坐标错误。

    (5)学习率。第一个迭代周期,慢慢地将学习率从 1 0 − 3 10^{-3} 103提高到 1 0 − 2 10^{-2} 102;然后继续以 1 0 − 2 10^{-2} 102的学习率训练75个迭代周期,用 1 0 − 3 10^{-3} 103的学习率训练30个迭代周期,最后用 1 0 − 4 10^{-4} 104的学习率训练30个迭代周期。

    (6)避免过拟合策略。使用dropout和数据增强来避免过拟合。

    ④ 优点与缺点

    (1)优点

    • YOLO检测物体速度非常快,其增强版GPU中能跑45fps(frame per second),简化版155fps
    • YOLO在训练和测试时都能看到一整张图的信息(而不像其它算法看到局部图片信息),因此YOLO在检测物体是能很好利用上下文信息,从而不容易在背景上预测出错误的物体信息
    • YOLO可以学到物体泛化特征

    (2)缺点

    • 精度低于其它state-of-the-art的物体检测系统
    • 容易产生定位错误
    • 对小物体检测效果不好,尤其是密集的小物体,因为一个栅格只能检测2个物体
    • 由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体处理上还有待加强

    2)YOLOv2(2016)

    Ross Girshick吸收fast-RCNN和SSD算法,设计了YOLOv2(论文原名《YOLO9000: Better, Faster, Stronger 》),在精度上利用一些列训练技巧,在速度上应用了新的网络模型DarkNet19,在分类任务上采用联合训练方法,结合wordtree等方法,使YOLOv2的检测种类扩充到了上千种,作者在论文中称可以检测超过9000个目标类别,所以也称YOLO9000. YOLOv2模型可以以不同的尺寸运行,从而在速度和准确性之间提供了一个简单的折衷,在67FPS时,YOLOv2在VOC 2007上获得了76.8 mAP。在40FPS时,YOLOv2获得了78.6 mAP,比使用ResNet的Faster R-CNN和SSD等先进方法表现更出色,同时仍然运行速度显著更快。

    ① 改进策略

    YOLOv2对YOLOv1采取了很多改进措施,以提高模型mAP,如下图所示:

    (1)Batch Normalization(批量正则化)。YOLOv2中在每个卷积层后加Batch Normalization(BN)层,去掉dropout. BN层可以起到一定的正则化效果,能提升模型收敛速度,防止模型过拟合。YOLOv2通过使用BN层使得mAP提高了2%。

    (2)High Resolution Classifier(高分辨率分类器)。原来的YOLO网络在预训练的时候采用的是224*224的输入(这是因为一般预训练的分类模型都是在ImageNet数据集上进行的),然后在detection的时候采用448*448的输入,这会导致从分类模型切换到检测模型的时候,模型还要适应图像分辨率的改变。而YOLOv2则将预训练分成两步:先用224*224的输入从头开始训练网络,大概160个epoch(表示将所有训练数据循环跑160次),然后再将输入调整到448*448,再训练10个epoch。注意这两步都是在ImageNet数据集上操作。最后再在检测的数据集上fine-tuning,也就是detection的时候用448*448的图像作为输入就可以顺利过渡了。作者的实验表明这样可以提高几乎4%的mAP。

    (3)Convolutional With Anchor Boxes(带Anchor Boxes的卷积)。 YOLOv1利用全连接层直接对边界框进行预测,导致丢失较多空间信息,定位不准。YOLOv2去掉了YOLOv1中的全连接层,使用Anchor Boxes预测边界框,同时为了得到更高分辨率的特征图,YOLOv2还去掉了一个池化层。由于图片中的物体都倾向于出现在图片的中心位置,若特征图恰好有一个中心位置,利用这个中心位置预测中心点落入该位置的物体,对这些物体的检测会更容易。所以总希望得到的特征图的宽高都为奇数。YOLOv2通过缩减网络,使用416*416的输入,模型下采样的总步长为32,最后得到13*13的特征图,然后对13*13的特征图的每个cell预测5个anchor boxes,对每个anchor box预测边界框的位置信息、置信度和一套分类概率值。使用anchor boxes之后,YOLOv2可以预测13*13*5=845个边界框,模型的召回率由原来的81%提升到88%,mAP由原来的69.5%降低到69.2%.召回率提升了7%,准确率下降了0.3%。

    (4)Dimension Clusters(维度聚类)。在Faster R-CNN和SSD中,先验框都是手动设定的,带有一定的主观性。YOLOv2采用k-means聚类算法对训练集中的边界框做了聚类分析,选用boxes之间的IOU值作为聚类指标。综合考虑模型复杂度和召回率,最终选择5个聚类中心,得到5个先验框,发现其中中扁长的框较少,而瘦高的框更多,更符合行人特征。通过对比实验,发现用聚类分析得到的先验框比手动选择的先验框有更高的平均IOU值,这使得模型更容易训练学习。

    VOC和COCO的聚类边界框尺寸。我们对边界框的维度进行k-means聚类,以获得我们模型的良好先验。左图显示了我们通过对k的各种选择得到的平均IOU。我们发现k=5给出了一个很好的召回率与模型复杂度的权衡。右图显示了VOC和COCO的相对中心。这两种先验都赞成更薄更高的边界框,而COCO比VOC在尺寸上有更大的变化。

    (5)New Network(新的网络)。 YOLOv2采用Darknet-19,其网络结构如下图所示,包括19个卷积层和5个max pooling层,主要采用3*3卷积和1*1卷积,这里1*1卷积可以压缩特征图通道数以降低模型计算量和参数,每个卷积层后使用BN层以加快模型收敛同时防止过拟合。最终采用global avg pool 做预测。采用YOLOv2,模型的mAP值没有显著提升,但计算量减少了。

    (6)直接定位预测(Direct location Prediction)。 Faster R-CNN使用anchor boxes预测边界框相对先验框的偏移量,由于没有对偏移量进行约束,每个位置预测的边界框可以落在图片任何位置,会导致模型不稳定,加长训练时间。YOLOv2沿用YOLOv1的方法,根据所在网格单元的位置来预测坐标,则Ground Truth的值介于0到1之间。网络中将得到的网络预测结果再输入sigmoid函数中,让输出结果介于0到1之间。设一个网格相对于图片左上角的偏移量是 c x , c y c_x,c_y cxcy。先验框的宽度和高度分别是 p w p_w pw p h p_h ph,则预测的边界框相对于特征图的中心坐标 ( b x , b y ) (b_x,b_y) (bxby)和宽高 b w , b h b_w,b_h bwbh的计算公式如下图所示。

    其中, σ \sigma σ为sigmoid函数; t x , t y t_x,t_y tx,ty预测的坐标偏移值(中心点坐标); t w , t h t_w, t_h tw,th是尺度缩放,分别经过sigmoid,输出0-1之间的偏移量,与 c x , c y c_x, c_y cx,cy相加后得到bounding box中心点的位置。

    (7)细粒度特征(Fine-Grained Features)。 YOLOv2借鉴SSD使用多尺度的特征图做检测,提出pass through层将高分辨率的特征图与低分辨率的特征图联系在一起,从而实现多尺度检测。YOLOv2提取Darknet-19最后一个max pool层的输入,得到26*26*512的特征图。经过1*1*64的卷积以降低特征图的维度,得到26*26*64的特征图,然后经过pass through层的处理变成13*13*256的特征图(抽取原特征图每个2*2的局部区域组成新的channel,即原特征图大小降低4倍,channel增加4倍),再与13*13*1024大小的特征图连接,变成13*13*1280的特征图,最后在这些特征图上做预测。使用Fine-Grained Features,YOLOv2的性能提升了1%。

    (8)多尺度训练(Multi-Scale Training)。 YOLOv2中使用的Darknet-19网络结构中只有卷积层和池化层,所以其对输入图片的大小没有限制。YOLOv2采用多尺度输入的方式训练,在训练过程中每隔10个batches,重新随机选择输入图片的尺寸,由于Darknet-19下采样总步长为32,输入图片的尺寸一般选择32的倍数{320,352,…,608}(最小的选项是320×320,最大的是608×608。我们调整网络的尺寸并继续训练)。采用Multi-Scale Training, 可以适应不同大小的图片输入,当采用低分辨率的图片输入时,mAP值略有下降,但速度更快,当采用高分辨率的图片输入时,能得到较高mAP值,但速度有所下降。

    YOLOv2比先前的检测方法更快,更准确。它也可以以不同的分辨率运行,以便在速度和准确性之间进行简单折衷
    ② 训练过程
    • 第一阶段:现在ImageNet分类数据集上训练Darknet-19,此时模型输入为224*224,共训练160轮
    • 第二阶段:将网络输入调整为448*448,继续在ImageNet分类数据集上训练细调模型,共10轮,此时分类模型top-1准确率为76.5%,而top-5准确度为93.3%
    • 第三阶段:修改Darknet-19分类模型为检测模型,并在检测数据集上继续细调网络
    ③ 优点与缺点

    (1)优点

    • YOLOv2使用了一个新的分类器作为特征提取部分,较多使用了3*3卷积核,在每次池化后操作后把通道数翻倍。网络使用了全局平均池化,把1*1卷积核置于3*3卷积核之间,用来压缩特征。也用了batch normalization稳定模型训练
    • 最终得出的基础模型就是Darknet-19,包含19个卷积层,5个最大池化层,运算次数55.8亿次,top-1图片分类准确率72.9%,top-5准确率91.2%
    • YOLOv2比VGG16更快,精度略低于VGG16

    (2)缺点

    • YOLOv2检测准确率不够,比SSD稍差
    • 不擅长检测小物体
    • 对近距离物体准确率较低

    3)YOLOv3(2018)

    YOLOv3总结了自己在YOLOv2的基础上做的一些尝试性改进,有的尝试取得了成功,而有的尝试并没有提升模型性能。其中有两个值得一提的亮点,一个是使用残差模型,进一步加深了网络结构;另一个是使用FPN架构实现多尺度检测。

    ① 改进
    • 新网络结构:DarkNet-53;
    • 用逻辑回归替代softmax作为分类器;
    • 融合FPN(特征金字塔网络),实现多尺度检测。
    ② 多尺度预测

    YOLOv3在基本特征提取器上添加几个卷积层,其中最后一个卷积层预测了一个三维张量——边界框,目标和类别预测。 在COCO实验中,为每个尺度预测3个框,所以对于4个边界框偏移量,1个目标预测和80个类别预测,张量的大小为N×N×[3 *(4 + 1 + 80)]。接下来,从前面的2个层中取得特征图,并将其上采样2倍。

    YOLOv3还从网络中的较前的层中获取特征图,并使用按元素相加的方式将其与上采样特征图进行合并。这种方法使得能够从上采样的特征图中获得更有意义的语义信息,同时可以从更前的层中获取更细粒度的信息。然后,再添加几个卷积层来处理这个组合的特征图,并最终预测出一个类似的张量,虽然其尺寸是之前的两倍。

    最后,再次使用相同的设计来预测最终尺寸的边界框。因此,第三个尺寸的预测将既能从所有先前的计算,又能从网络前面的层中的细粒度的特征中获益。

    ③ 网络结构

    YOLOv3在之前Darknet-19的基础上引入了残差块,并进一步加深了网络,改进后的网络有53个卷积层,取名为Darknet-53,网络结构如下图所示(以256*256的输入为例):

    从YOLOv1到YOLOv2再到YOLO9000、YOLOv3, YOLO经历三代变革,在保持速度优势的同时,不断改进网络结构,同时汲取其它优秀的目标检测算法的各种trick,先后引入anchor box机制、引入FPN实现多尺度检测等。

    不同backbone的各种网络在准确度,billions of operations,billion floating point operations per second和FPS上的比较

    每个网络都使用相同的设置进行训练,并在256×256的图像上进行单精度测试。 运行时间是在Titan X上用256×256图像进行测量的。因此,Darknet-53可与最先进的分类器相媲美,但浮点运算更少,速度更快。 Darknet-53比ResNet-101更好,且速度快1.5倍。 Darknet-53与ResNet-152具有相似的性能,但速度快2倍。

    Darknet-53也实现了最高的每秒浮点运算测量。 这意味着网络结构可以更好地利用GPU,使它的评测更加高效,更快。 这主要是因为ResNet的层数太多,效率不高。

    ④ 效果

    (1)兼顾速度与准确率。在COCO数据机上,mAP指标与SSD模型相当,但速度提高了3倍;mAP指标比RetinaNet模型差些,但速度要高3.8倍。

    (2)小目标检测有所提升,但中等和更大尺寸的物体上的表现相对较差。

    当然,YOLOv3也有些失败的尝试,并未起到有效作用,请自行查阅原始论文。

    三、视频关键帧处理

    例如,需要从一台晚会中抹去某个违法明星的视频,如果视频每秒25帧,采用逐帧扫描,每处理一帧需要2秒,则需要的处理时间为:

    时间 = 4 * 3600 * 25 * 2
    

    共需要200个小时才能处理完成。所以就需要借助关键帧来提高处理速度,降低目标检测复杂度。

    1. 什么是关键帧

    关键帧(I-Frame):

    • 关键帧是包含该段视频中主要信息的帧

    • 关键帧在压缩成AVI, MP4, MOV等格式时,该帧会完全保留

    • 视频解码时只需要本帧数据,不需要从前一帧、后一帧获取数据

    前向差别帧(P-Frame)

    • 当前帧与前一个I-Frame或前一个P-Frame之间的差别,可以理解为与前一帧的数据偏移值
    • P-Frame没有完整数据画面,只有与前一帧的差别信息,解码时需要从前一帧获取数据

    双向差别帧(B-Frame)

    • 记录本帧与前一帧、后一帧的差别
    • 解码时需要获取前一帧、后一帧的数据
    • 压缩后的视频体积小,但编解码计算较慢

    2. 如何提取关键帧

    可以使用FFMPEG工具提取视频中的关键帧。

    也可以使用FFMPEG工具进行视频截取。

    四、目标检测数据集

    1. PASCAL VOC

    VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。学术界常用5k的train/val 2007和16k的train/val 2012作为训练集,test 2007作为测试集,用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。

    2. MS COCO

    COCO数据集是微软团队发布的一个可以用来图像recognition+segmentation+captioning 数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果,致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继ImageNet Challenge以来最有影响力的学术竞赛之一。

    相比ImageNet,COCO更加偏好目标与其场景共同出现的图片,即non-iconic images。这样的图片能够反映视觉上的语义,更符合图像理解的任务要求。而相对的iconic images则更适合浅语义的图像分类等任务。

    COCO的检测任务共含有80个类,在2014年发布的数据规模分train/val/test分别为80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试集(minival),同时向官方的evaluation server提交结果(test-dev)。除此之外,COCO官方也保留一部分test数据作为比赛的评测集。

    3. Google Open Image

    Open Image是谷歌团队发布的数据集。最新发布的Open Images V4包含190万图像、600个种类,1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像 8 个)。

    4. ImageNet

    ImageNet是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。ImageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。ImageNet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。ImageNet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

    五、常用图像标注工具

    1. LabelImg

    1)LabelImg 是一款开源的图像标注工具,标签可用于分类和目标检测,它是用 Python 编写的,并使用Qt作为其图形界面,简单好用。注释以 PASCAL VOC 格式保存为 XML 文件,这是 ImageNet 使用的格式。 此外,它还支持 COCO 数据集格式。

    2)安装方法:

    前置条件:安装Python3以上版本,安装pyqt5
    第一步:下载安装包
    第二步:使用Pycharm打开项目,运行labelImg.py文件;或直接运行labelImg.py文件

    3)常见错误处理:

    ① 报错:ModuleNotFoundError: No module named ‘libs.resources’

    • 处理方式:
      • 将python下scripts添加到环境变量path中
      • 在labelImg目录下执行命令:pyrcc5 -o resources.py resources.qrc
      • 将生成的resources.py拷贝到labelImg/libs/下
      • 执行labelImg.py程序

    2. Labelme

    labelme 是一款开源的图像/视频标注工具,标签可用于目标检测、分割和分类。灵感是来自于 MIT 开源的一款标注工具 Labelme。Labelme具有的特点是:

    • 支持图像的标注的组件有:矩形框,多边形,圆,线,点(rectangle, polygons, circle, lines, points)
    • 支持视频标注
    • GUI 自定义
    • 支持导出 VOC 格式用于 semantic/instance segmentation
    • 支出导出 COCO 格式用于 instance segmentation

    3. Labelbox

    Labelbox 是一家为机器学习应用程序创建、管理和维护数据集的服务提供商,其中包含一款部分免费的数据标签工具,包含图像分类和分割,文本,音频和视频注释的接口,其中图像视频标注具有的功能如下:

    • 可用于标注的组件有:矩形框,多边形,线,点,画笔,超像素等(bounding box, polygons, lines, points,brush, subpixels)
    • 标签可用于分类,分割,目标检测等
    • 以 JSON / CSV / WKT / COCO / Pascal VOC 等格式导出数据
    • 支持 Tiled Imagery (Maps)
    • 支持视频标注 (快要更新)

    4. RectLabel

    RectLabel 是一款在线免费图像标注工具,标签可用于目标检测、分割和分类。具有的功能或特点:

    • 可用的组件:矩形框,多边形,三次贝塞尔曲线,直线和点,画笔,超像素
    • 可只标记整张图像而不绘制
    • 可使用画笔和超像素
    • 导出为YOLO,KITTI,COCO JSON和CSV格式
    • 以PASCAL VOC XML格式读写
    • 使用Core ML模型自动标记图像
    • 将视频转换为图像帧

    5. CVAT

    CVAT 是一款开源的基于网络的交互式视频/图像标注工具,是对加州视频标注工具(Video Annotation Tool) 项目的重新设计和实现。OpenCV团队正在使用该工具来标注不同属性的数百万个对象,许多 UI 和 UX 的决策都基于专业数据标注团队的反馈。具有的功能

    • 关键帧之间的边界框插值
    • 自动标注(使用TensorFlow OD API 和 Intel OpenVINO IR格式的深度学习模型)

    6. VIA

    VGG Image Annotator(VIA)是一款简单独立的手动注释软件,适用于图像,音频和视频。 VIA 在 Web 浏览器中运行,不需要任何安装或设置。 页面可在大多数现代Web浏览器中作为离线应用程序运行。

    • 支持标注的区域组件有:矩形,圆形,椭圆形,多边形,点和折线

    附录:术语表

    英文全写英文简写中文名称
    one stage一阶段检测
    two stage两阶段检测
    region proposalRP候选区域(一个有可能包含待检物体的预选框)
    bounding boxesbb候选框
    Non-Maximum SuppressionNMS非极大值抑制
    selective searchSS选择搜索
    Regions with CNN featuresR-CNN
    region of interestRoI感兴趣区域(候选区域)
    You Only Look OnceYOLO
    frame per secondfps帧每秒
    High Resolution Classifier高分辨率分类器
    Batch NormalizationBN批量正则化
    Mean Average PrecisionmAP平均精度均值
    Intersection over UnionIOU交并比(“预测的边框” 和 “真实的边框” 的交集和并集的比值)
    Fine-Grained Features细粒度特征
    Feature Pyramid NetworkFPN特征金字塔网络

    更多信息请关注公众号:

    展开全文
  • 我们评估了不同的粘贴增强策略,最终,与MS COCO上的当前最先进的方法相比,我们在实例分割上实现了9.7%的相对改进,在小对象的目标检测上实现了7.1%。 引言 检测图像中的物体是当今计算机视觉研究的基本任务...

    博主github:https://github.com/MichaelBeechan
    博主CSDN:https://blog.csdn.net/u011344545

    Augmentation for small object detection

    Mate Kisantal kisantal.mate@gmail.com
    Zbigniew Wojna zbigniewwojna@gmail.com
    Jakub Murawski kuba.murawski96@gmail.com
    Jacek Naruniec j.naruniec@ire.pw.edu.pl
    Kyunghyun Cho kyunghyun.cho@nyu.edu

    论文下载:https://arxiv.org/pdf/1902.07296.pdf

    在这里插入图片描述
    摘要
    近年来,目标检测取得了长足的发展。尽管有了这些改进,但在检测小目标和大目标之间的性近年来,物体检测取得了令人瞩目的进展。尽管有这些改进,但在检测小物体和大物体之间的性能仍然存在显着差距。我们在具有挑战性的数据集MS COCO上分析当前最先进的模型Mask-RCNN。我们表明,小地面实况对象与预测锚点之间的重叠远低于预期的IoU阈值。我们猜想这是由于两个因素造成的; (1)只有少数图像包含小物体,(2)即使在包含它们的每个图像中,小物体也看起来不够。因此,我们建议用小物体对这些图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。它允许我们将大型物体上的探测器质量与小物体上的探测器质量进行权衡。我们评估了不同的粘贴增强策略,最终,与MS COCO上的当前最先进的方法相比,我们在实例分割上实现了9.7%的相对改进,在小对象的目标检测上实现了7.1%。

    引言

    检测图像中的物体是当今计算机视觉研究的基本任务之一,因为它通常是许多现实世界应用的起点,包括机器人和自动驾驶汽车,卫星和航空图像分析,以及器官的定位和大量的医学图像。而物体检测这一重要问题最近经历了很多改进。 MS COCO物体检测竞赛的top-1解决方案,已经从2015年的平均精度(AP)0.373 发展到2017年的0.525(IoU = .50:.05:.95这是一项主要挑战在MS COCO实例分段挑战的背景下,可以在实例分割问题中观察到类似的进展。尽管有这些改进,但现有解决方案通常在小型物体上表现不佳,其中小型物体在MS COCO的情况下如表1中所定义。从小物体和大物体的检测之间的性能的显着差异可以明显看出。例如,参见图1,其列出了MS COCO实例分段挑战的最高排名提交。在实例分割任务中也观察到类似的问题。例如,请参见图2中当前最先进模型Mask-RCNN的样本预测,其中模型错过了大多数小对象。
    数据集:http://cocodataset.org/#detection-leaderboard
    在这里插入图片描述
    在这里插入图片描述
    小物体检测在许多下游任务中至关重要。在汽车的高分辨率场景照片中检测小物体或远处的物体是安全地部署自驾车的必要条件。许多物体,例如交通标志或行人,在高分辨率图像上几乎看不到。在医学成像中,早期检测肿块和肿瘤对于进行准确的早期诊断至关重要,因为这些元素很容易只有几个像素。通过在材料表面上可见的小缺陷的定位,自动工业检查还可以受益于小物体检测。另一个应用是卫星图像分析,其中必须有效地注释诸如汽车,船舶和房屋之类的物体。平均每像素分辨率为0.5-5m,这些对象的大小只有几个像素。换句话说,小物体检测和分割需要更多关注,因为在现实世界中部署了更复杂的系统。因此,我们提出了一种改进小物体检测的新方法。
    在这里插入图片描述
    我们专注于最先进的物体探测器,Mask R-CNN [18],在具有挑战性的数据集MS COCO上。我们注意到该数据集关于小对象的两个属性。首先,我们观察到在数据集中包含小对象的图像相对较少,这可能会使任何检测模型偏向于更多地关注中型和大型对象。其次,小物体所覆盖的区域要小得多,这意味着小物体的位置缺乏多样性。我们猜想,当物体检测模型出现在图像的较少探索的部分时,难以在测试时间内推广到小物体。

    我们通过对包含小对象的图像进行过采样来解决第一个问题。第二个问题是通过在包含小对象的每个图像中多次复制粘贴小对象来解决的。粘贴每个对象时,我们确保粘贴的对象不与任何现有对象重叠。这增加了小物体位置的多样性,同时确保这些物体出现在正确的上下文中,如图3所示。每个图像中小物体数量的增加进一步解决了少量正匹配锚点的问题。我们在第3节中进行了定量分析。总体而言,在MS COCO中与目前最先进的方法Mask R-CNN相比,实例分割的相对改进率为9.7%,小物体的物体检测率为7.1%。

    相关工作

    目标检测 (Object Detection)
    更快的基于区域的卷积神经网络( Faster region-based convolutional neural network,Faster R-CNN),基于区域的完全卷积网络( Region-based fully convolutional network,R-FCN)和单射击检测器(Single Shot Detector,SSD)是对象检测的三种主要方法,它们根据区域提案是否以及在何处而不同连接。 Faster R-CNN及其变体旨在帮助处理各种对象尺度,因为差异裁剪将所有提议合并为单个分辨率。 然而,这发生在深度卷积网络中,并且所得到的裁剪框可能与对象不完全对齐,这可能在实践中损害其性能。 SSD最近扩展到解卷积单发探测器(Deconvolutional Single Shot Detector,DSSD),它通过解码器部分中的转置卷积对SSD的低分辨率特征进行上采样,以增加内部空间分辨率。 类似地,特征金字塔网络( Feature Pyramid Network,FPN)利用解码器类型的子网络扩展 Faster R-CNN。
    在这里插入图片描述
    实例分割(Instance Segmentation)

    实例分割不仅仅是对象检测,还需要预测每个对象的精确掩码。 多任务网络级联(Multi-Task Network Cascades,MNC)[9]构建了一系列预测和掩模细化。 完全卷积实例感知语义分割(Fully convolutional instance-aware semantic segmentation,FCIS)[23]是一个完全卷积模型,它计算每个感兴趣区域共享的位置敏感分数图。 [14],也是一种完全卷积的方法,学习像素嵌入。 Mask R-CNN [18]扩展了FPN模型,其分支用于预测掩模,并为对象检测和实例分割引入了新的差分裁剪操作。

    小目标(Small objects)

    检测小物体可以通过增加输入图像分辨率[7,26]或通过融合高分辨率特征与低分辨率图像[36,2,5,27]的高维特征来解决。 然而,这种使用较高分辨率的方法增加了计算开销,并且没有解决小物体和大物体之间的不平衡。 [22]而是使用生成对抗网络( Generative Adversarial Network,GAN)在卷积网络中构建特征,这些特征在交通标志和行人检测的上下文中的小对象和大对象之间难以区分。 [12]在区域提案网络中使用基于不同分辨率层的不同锚定比例。 [13]通过锚尺寸的正确分数来移动图像特征以覆盖它们之间的间隙。 [6,33,8,19]在裁剪小对象提案时添加上下文。
    在这里插入图片描述

    识别检测小物体的问题

    在本节中,我们首先概述了MS COCO数据集和我们实验中使用的对象检测模型。 然后,我们讨论MS COCO数据集的问题以及训练中使用的锚匹配过程,这有助于小对象检测的难度。
    在这里插入图片描述
    MS COCO

    我们试验了MS COCO检测数据集[25]。 MS COCO 2017检测数据集包含118,287个用于训练的图像,5,000个用于验证的图像和40,670个测试图像。 来自80个类别的860,001和36,781个对象使用地面实况边界框和实例掩模进行注释。

    在MS COCO检测挑战中,主要评估指标是平均精度(average precision,AP)。 通常,AP被定义为所有召回值的真阳性与所有阳性的比率的平均值。 因为对象需要被定位和正确分类,所以如果预测的掩模或边界框具有高于0.5的交叉结合( intersection-over-union,IoU),则正确的分类仅被计为真正的正检测。 AP分数在80个类别和10个IoU阈值之间取平均值,均匀分布在0.5和0.95之间。 指标还包括跨不同对象尺度测量的AP。 在这项工作中,我们的主要兴趣是关于小物体的AP。

    Mask R-CNN:
    对于我们的实验,我们使用[16]中的Mask R-CNN实现和ResNet-50 backbone,并调整[17]中提出的线性缩放规则来设置学习超参数。我们使用比[16]中的基线更短的训练计划。我们使用0.01的基本学习率训练分布在四个GPU上的36k迭代模型。为了优化,我们使用随机梯度下降,动量设置为0.9,权重衰减,系数设置为0.0001。在24k和32k迭代之后,在训练期间,学习率按比例缩小0.1倍。所有其他参数保留在[16]的基线Mask R-CNN + FPN + ResNet-50配置中。

    在我们的调查中,网络的区域提案阶段尤为重要。我们使用特征金字塔网络( feature pyramid network,FPN)来生成对象提议[24]。它预测了相对于五个尺度(32, 62, 122 , 256, 512)^2和三个纵横比(1, 0.5, 2)的十五个锚箱的对象建议。如果锚具有高于0.7的IoU对抗任何地面实况框,或者如果它具有针对地面实况边界框的最高IoU,则锚接收正标签。
    在这里插入图片描述
    Small object detection by Mask R-CNN on MS COCO

    在MS COCO中,训练集中出现的所有对象中有41.43%是小的,而只有34.4%和24.2%分别是中型和大型对象。 另一方面,只有约一半的训练图像包含任何小物体,而70.07%和82.28%的训练图像分别包含中型和大型物体。 请参阅表2中的(Object Count and Images)对象计数和图像。这确认了小对象检测问题背后的第一个问题:使用小对象的示例较少。

    通过考虑每个尺寸类别的总对象面积(Total Object Area),可以立即看出第二个问题。 仅有1.23%的带注释像素属于小对象。 中等大小的对象占用面积的8倍以上,占总注释像素的10.18%,而大多数像素,82.28%被标记为大对象的一部分。在该数据集上训练的任何探测器都没有看到足够的小物体情况,包括图像和像素。

    如本节前面所述,来自区域提案网络的每个预测锚点如果具有最高的IoU具有地面实况边界框或者如果其具有高于0.7的任何地面实况框的IoU,则接收正标签。这个过程非常适合大型物体,因为跨越多个滑动窗口位置的大型物体通常具有带有许多锚箱的高IoU,而小物体可能仅与具有低IoU的单个锚箱匹配。如表2所列,只有29.96%的正匹配锚与小物体配对,而44.49%的正匹配锚与大物体配对。从另一个角度来看,它意味着每个大对象有2.54个匹配的锚点,而每个小对象只有一个匹配的锚点。此外,正如平均最大(Average Max IoU )IoU度量标准所揭示的那样,即使是小物体的最佳匹配锚箱通常也具有低IoU值。小物体的平均最大IoU仅为0.29,而中型和大型物体的最佳匹配锚点分别为IoU,0.57和0.66的两倍。我们在图中说明了这种现象。 5通过可视化几个例子。这些观察结果表明,小型物体对计算区域建议损失的贡献要小得多,这使得整个网络偏向于大中型物体。

    过采样和增强(Oversampling and Augmentation)

    我们通过明确解决上一节中概述的MS COCO数据集的小对象相关问题,提高了对象检测器在小对象上的性能。 特别是,我们对包含小对象的图像进行过度采样并执行小对象增强,以鼓励模型更多地关注小对象。 虽然我们使用Mask R-CNN评估所提出的方法,但它通常可用于任何其他对象检测网络或框架,因为过采样和增强都是作为数据预处理完成的。

    Oversampling(过采样)

    我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题[4]。 这是一种轻松而直接的方法,可以缓解MS COCO数据集的这一问题并提高小对象检测的性能。 在实验中,我们改变过采样率并研究过采样的影响,不仅对小对象检测,而且对检测中大对象。

    Augmentation(增强)

    除了过采样之外,我们还引入了专注于小对象的数据集扩充。 MS COCO数据集中提供的实例分割掩码允许我们从其原始位置复制任何对象。 然后将副本粘贴到不同的位置。 通过增加每个图像中的小对象的数量,匹配的锚的数量增加。 这反过来又改善了小对象在训练期间计算RPN的损失函数的贡献。

    在将对象粘贴到新位置之前,我们对其应用随机转换。 我们通过将对象大小改变±20%并将其旋转±15°来缩放对象。 我们只考虑非遮挡对象,因为粘贴不相交的分割遮罩与中间不可见的部分通常会导致不太逼真的图像。 我们确保新粘贴的对象不与任何现有对象重叠,并且距图像边界至少五个像素。

    在图4中,我们以图形方式说明了所提出的增强策略以及它如何在训练期间增加匹配锚点的数量,从而更好地检测小物体。

    Experimental Setup(实验参数设置)

    Oversampling

    在第一组实验中,我们研究了包含小物体的过采样图像的影响。 我们改变了两个,三个和四个之间的过采样率。 我们创建了多个图像副本,而不是实际的随机过采样,这些图像与小对象脱机以提高效率。

    Augmentation

    在第二组实验中,我们研究了使用增强对小物体检测和分割的影响。 我们复制并粘贴每个图像中的所有小对象一次。 我们还用小物体对图像进行过采样,以研究过采样和增强策略之间的相互作用。

    我们测试了三种设置。 在第一个设置中,我们用带有复制粘贴的小对象的小对象替换每个图像。 在第二个设置中,我们复制这些增强图像以模拟过采样。 在最终设置中,我们保留原始图像和增强图像,这相当于用小对象对图像进行过采样两倍,同时用更小的对象扩充复制的副本。

    Copy-Pasting Strategies

    有不同的方法来复制粘贴小对象。 我们考虑三种不同的策略。 首先,我们在图像中选择一个小对象,并在随机位置复制粘贴多次。 其次,我们选择了许多小物体,并在任意位置复制粘贴这些物体一次。 最后,我们在随机位置多次复制粘贴每个图像中的所有小对象。 在所有情况下,我们使用上面第三个增强设置; 也就是说,我们保留原始图像和增强副本。
    在这里插入图片描述
    Pasting Algorithms

    粘贴小对象的副本时,有两件事需要考虑。 首先,我们必须确定粘贴的对象是否会与任何其他对象重叠。 虽然我们选择不引入任何重叠,但我们通过实验验证它是否是一个好策略。 其次,是否执行额外的过程来平滑粘贴对象的边缘是一种设计选择。 我们试验具有不同滤波器尺寸的边界的高斯模糊是否可以帮助比较没有进一步处理。

    Result and Analysis

    Oversampling

    通过在训练期间更频繁地对小物体图像进行采样(参见表3),可以改善小物体分割和检测上的AP。 通过3倍过采样观察到最大增益,这使小物体的AP增加1%(相当于8.85%的相对改善)。 虽然中等对象尺度上的性能受影响较小,但是大对象检测和分割性能始终受到过采样的影响,这意味着必须基于小对象和大对象之间的相对重要性来选择该比率。

    Augmentation

    在表4中,我们使用所提出的增强和过采样策略的不同组合来呈现结果。当我们用包含更多小对象(第二行)的副本用小对象替换每个图像时,性能显着下降。当我们将这些增强图像过采样2倍时,小物体的分割和检测性能重新获得了损失,尽管总体性能仍然比基线差。当我们在增强验证集上而不是原始验证集上评估此模型时,我们看到小对象增强性能(0.161)增加了38%,这表明训练有素的模型有效地过度拟合“粘贴”小物体但是不一定是原来的小物件。我们认为这是由于粘贴的伪影,例如不完美的对象遮罩和与背景的亮度差异,这些神经网络相对容易发现。通过将过采样和增强与p = 0.5(original+aug)的概率相结合来实现最佳结果,原始对象与增强小对象的比率为2:1。这种设置比单独过采样产生了更好的结果,证实了所提出的粘贴小物体策略的有效性。

    在这里插入图片描述
    在这里插入图片描述
    Copy-Pasting strategies

    在这里插入图片描述
    在这里插入图片描述
    Pasting Algorithms

    在这里插入图片描述

    Conclusion(结论)

    我们研究了小物体检测的问题。我们发现小物体平均精度差的原因之一是训练数据中缺少小物体的表示。对于现有的现有技术的物体检测器尤其如此,该物体检测器需要存在足够的物体以使预测的锚点在训练期间匹配。我们提出了两种策略来扩充原始的MS COCO数据库来克服这个问题。首先,我们展示了在训练过程中对包含小物体的图像进行过采样,可以轻松提高小物体的性能。其次,我们提出了一种基于复制粘贴小对象的增强算法。我们的实验证明,与通过掩模R-CNN在MS COCO上获得的现有技术相比,小物体的实例分割相比改善了9.7%,物体检测为7.1%。如实验所证实的,所提出的一组增强方法提供了对小物体和大物体的预测质量之间的权衡。

    References

    1. Abouelela, A., Abbas, H.M., Eldeeb, H., Wahdan, A.A., Nassar, S.M.: Automated
      vision system for localizing structural defects in textile fabrics. Pattern recognition
      letters 26(10), 1435–1443 (2005)
    2. Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting
      objects in context with skip pooling and recurrent neural networks. In: Proceedings
      of the IEEE conference on computer vision and pattern recognition. pp. 2874–2883
      (2016)
    3. Bottema, M.J., Slavotinek, J.P.: Detection and classification of lobular and dcis
      (small cell) microcalcifications in digital mammograms. Pattern Recognition Let-
      ters 21(13-14), 1209–1214 (2000)
    4. Buda, M., Maki, A., Mazurowski, M.A.: A systematic study of the class imbalance
      problem in convolutional neural networks. arXiv preprint arXiv:1710.05381 (2017)
    5. Cao, G., Xie, X., Yang, W., Liao, Q., Shi, G., Wu, J.: Feature-fused ssd: fast
      detection for small objects. In: Ninth International Conference on Graphic and
      Image Processing (ICGIP 2017). vol. 10615, p. 106151E. International Society for
      Optics and Photonics (2018)
    6. Chen, C., Liu, M.Y., Tuzel, O., Xiao, J.: R-cnn for small object detection. In: Asian
      conference on computer vision. pp. 214–230. Springer (2016)
    7. Chen, X., Kundu, K., Zhu, Y., Berneshawi, A.G., Ma, H., Fidler, S., Urtasun, R.:
      3d object proposals for accurate object class detection. In: Advances in Neural
      Information Processing Systems. pp. 424–432 (2015)
    8. Cheng, P., Liu, W., Zhang, Y., Ma, H.: Loco: Local context based faster r-cnn for
      small traffic sign detection. In: International Conference on Multimedia Modeling.
      pp. 329–341. Springer (2018)
    9. Dai, J., He, K., Sun, J.: Instance-aware semantic segmentation via multi-task net-
      work cascades. In: Proceedings of the IEEE Conference on Computer Vision and
      Pattern Recognition. pp. 3150–3158 (2016)
    10. Dai, J., Li, Y., He, K., Sun, J.: R-fcn: Object detection via region-based fully
      convolutional networks. In: Advances in neural information processing systems.
      pp. 379–387 (2016)
    11. Deshmukh, V.R., Patnaik, G., Patil, M.: Real-time traffic sign recognition system
      based on colour image segmentation. International Journal of Computer Applica-
      tions 83(3) (2013)
    12. Eggert, C., Zecha, D., Brehm, S., Lienhart, R.: Improving small object proposals
      for company logo detection. In: Proceedings of the 2017 ACM on International
      Conference on Multimedia Retrieval. pp. 167–174. ACM (2017)
    13. Fang, L., Zhao, X., Zhang, S.: Small-objectness sensitive detection based on shifted
      single shot detector. Multimedia Tools and Applications pp. 1–19 (2018)
    14. Fathi, A., Wojna, Z., Rathod, V., Wang, P., Song, H.O., Guadarrama, S., Murphy,
      K.P.: Semantic instance segmentation via deep metric learning. arXiv preprint
      arXiv:1703.10277 (2017)
    15. Fu, C.Y., Liu, W., Ranga, A., Tyagi, A., Berg, A.C.: Dssd: Deconvolutional single
      shot detector. arXiv preprint arXiv:1701.06659 (2017)
    16. Girshick, R., Radosavovic, I., Gkioxari, G., Dollár, P., He, K.: Detectron. https:
      //github.com/facebookresearch/detectron (2018)
    17. Goyal, P., Dollár, P., Girshick, R.B., Noordhuis, P., Wesolowski, L., Kyrola, A.,
      Tulloch, A., Jia, Y., He, K.: Accurate, large minibatch sgd: Training imagenet in
      1 hour. CoRR abs/1706.02677 (2017)
    18. He, K., Gkioxari, G., Dollár, P., Girshick, R.: Mask r-cnn. In: Computer Vision
      (ICCV), 2017 IEEE International Conference on. pp. 2980–2988. IEEE (2017)
    19. Hu, P., Ramanan, D.: Finding tiny faces. In: Computer Vision and Pattern Recog-
      nition (CVPR), 2017 IEEE Conference on. pp. 1522–1530. IEEE (2017)
    20. Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., Fischer, I.,
      Wojna, Z., Song, Y., Guadarrama, S., et al.: Speed/accuracy trade-offs for modern
      convolutional object detectors. In: IEEE CVPR. vol. 4 (2017)
    21. Kampffmeyer, M., Salberg, A.B., Jenssen, R.: Semantic segmentation of small ob-
      jects and modeling of uncertainty in urban remote sensing images using deep con-volutional neural networks. In: Proceedings of the IEEE conference on computer
      vision and pattern recognition workshops. pp. 1–9 (2016)
    22. Li, J., Liang, X., Wei, Y., Xu, T., Feng, J., Yan, S.: Perceptual generative adver-
      sarial networks for small object detection. In: IEEE CVPR (2017)
    23. Li, Y., Qi, H., Dai, J., Ji, X., Wei, Y.: Fully convolutional instance-aware semantic
      segmentation. In: 2017 IEEE Conference on Computer Vision and Pattern Recog-
      nition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017. pp. 4438–4446 (2017)
    24. Lin, T.Y., Dollár, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature
      pyramid networks for object detection. In: CVPR. vol. 1, p. 4 (2017)
    25. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P.,
      Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
      on computer vision. pp. 740–755. Springer (2014)
    26. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.:
      Ssd: Single shot multibox detector. In: European conference on computer vision.
      pp. 21–37. Springer (2016)
    27. Menikdiwela, M., Nguyen, C., Li, H., Shaw, M.: Cnn-based small object detection
      and visualization with feature activation mapping. In: 2017 International Confer-
      ence on Image and Vision Computing New Zealand, IVCNZ 2017, Christchurch,
      New Zealand, December 4-6, 2017. pp. 1–5 (2017)
    28. Modegi, T.: Small object recognition techniques based on structured template
      matching for high-resolution satellite images. In: SICE Annual Conference, 2008.
      pp. 2168–2173. IEEE (2008)
    29. Nagarajan, M.B., Huber, M.B., Schlossbauer, T., Leinsinger, G., Krol, A.,
      Wismüller, A.: Classification of small lesions in dynamic breast mri: eliminating the
      need for precise lesion segmentation through spatio-temporal analysis of contrast
      enhancement. Machine vision and applications 24(7), 1371–1381 (2013)
    30. Ng, H.F.: Automatic thresholding for defect detection. Pattern recognition letters
      27(14), 1644–1649 (2006)
    31. Ouyang, W., Wang, X.: Joint deep learning for pedestrian detection. In: Proceed-
      ings of the IEEE International Conference on Computer Vision. pp. 2056–2063
      (2013)
    32. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detec-
      tion with region proposal networks. In: Advances in neural information processing
      systems. pp. 91–99 (2015)
    33. Ren, Y., Zhu, C., Xiao, S.: Small object detection in optical remote sensing images
      via modified faster r-cnn. Applied Sciences 8(5), 813 (2018)
    34. Sermanet, P., LeCun, Y.: Traffic sign recognition with multi-scale convolutional
      networks. In: Neural Networks (IJCNN), The 2011 International Joint Conference
      on. pp. 2809–2813. IEEE (2011)
    35. Wojna, Z., Ferrari, V., Guadarrama, S., Silberman, N., Chen, L.C., Fathi, A.,
      Uijlings, J.: The devil is in the decoder. arXiv preprint arXiv:1707.05847 (2017)
    36. Yang, F., Choi, W., Lin, Y.: Exploit all the layers: Fast and accurate cnn object
      detector with scale dependent pooling and cascaded rejection classifiers. In: Pro-
      ceedings of the IEEE conference on computer vision and pattern recognition. pp.
      2129–2137 (2016)
    展开全文
  • 目标检测】2020年遥感图像目标检测综述

    万次阅读 多人点赞 2020-08-17 12:44:16
    目标检测】2020年遥感图像目标检测综述本文禁止转载1. DOTA数据集:2. 待解决的问题:2.1 目标小而密集:2.2 任意旋转角:2.3 Anchor匹配问题:2.4 回归任务的边界问题:2.5 实例级噪声:3. ...
    展开全文
  • 作者丨高新波、莫梦竟成、汪海涛、冷佳旭编辑丨极市平台导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行...
  • 研究树林、陆地场景下可见光...仿真结果表明,算法用浓烈的红色突出红外图像的热目标,有效地提醒观察者注意兴趣的目标,同时,可见光图像的场景细节被赋予与白天光照下彩色图像类似的自然色彩,改善了场景的深度感知
  • 解决目标检测中的小目标问题

    千次阅读 2021-02-22 17:25:21
    该网络主要在SSD网络中引入Receptive Field Block (RFB) ,引入RFB的出发点通过模拟人类视觉的感受野加强网络的特征提取能力,在结构上RFB借鉴了Inception的思想,主要是在Inception的基础上加入了dilated卷积层...
  • 负样本是指不包含任务所要识别的目标的图像,也叫负图像(Negtive Image)。以识别限速牌为例,如下所示,左图包含限速牌,为正样本,右图不包含限速牌,为背景图,即负样本。 正样本 负样本 2.为什么要训练负...
  • 目标跟踪算法分类

    千次阅读 2019-01-17 15:33:01
    上一篇文章写了:跟踪颜色块,自我感觉优化的...a)不依赖于先验知识,直接从图像序列中检测到运动目标,并进行目标识别,最终跟踪兴趣的运动目标;  b)依赖于目标的先验知识,首先为运动目标建模,然后在图像序...
  • 通过对兴趣区域进行基于侧抑制的局对比度增强处理,有效地抑制了背景杂波,完整地增强了亮、暗目标,并且对目标边缘增强的定位准确,有利于目标特征的计算。实验结果表明,该算法能对亮、暗目标自适应检测,并且...
  • 目标检测算法综述—— Two-Stage方法

    千次阅读 2019-08-18 11:22:56
    目标检测的任务是找出图像中所有兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉...
  • CVPR2021目标跟踪汇总(一)

    千次阅读 2021-07-14 16:26:54
    CVPR2021目标跟踪 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们...
  • 目标检测综述

    千次阅读 2017-09-22 21:57:42
    目标检测
  • 目标检测中的性能提升方法综述

    千次阅读 2020-10-31 20:52:51
    什么是目标检测样本不均衡问题2.OHEM,在线难例挖掘3.S-OHEM,基于LOSS分布采样的在线困难样本挖掘4.Focal Loss :专注难样本5. Generalized Focal Loss6.GHM,损失函数梯度均衡化机制总结三、目标检测优化使用的Trick...
  • 目标检测与YOLO算法(用Python实现目标检测)

    千次阅读 多人点赞 2020-07-27 23:54:36
    最近在听Andrew Ng讲解目标检测的视频,包括目标定位,特征点检测,卷积的滑动窗口的实现,Bounding Box预测,交并比,非极大值抑制,AnchorBoxes,YOLO算法以及候选区域,并通过查阅相关的资料,对以上内容有了初步...
  • 华为工作法--读后

    万次阅读 2018-09-11 18:56:58
    确定目标、高效执行、端正态度、分享成功失败、加强沟通交流、不断自我提升、保持快乐等等,都是我们可以借鉴的一些工作方法。 本书特别适合想了解大公司管理体系的人,也适合初入管理职位的管理者,同时也适合每...
  • 该系统采用背景建模方法检测当前视野中的运动目标并进行跟踪,针对兴趣目标采用基于边缘增强模板匹配(EETM)方法进行主动跟踪,并提出了一种简单有效的PTZ摄像机控制方法。采用海康威视球机进行测试,测试结果表明...
  • 睿智的目标检测53——Pytorch搭建YoloX目标检测平台

    万次阅读 多人点赞 2021-09-25 20:20:25
    睿智的目标检测53——Pytorch搭建YoloX目标检测平台学习前言源码下载YoloX改进的部分(不完全)YoloX实现思路一、整体结构解析二、网络结构解析1、主干网络CSPDarknet介绍2、构建FPN特征金字塔进行加强特征提取3、...
  • 机器视觉 OpenCV—python目标跟踪(光流)

    万次阅读 多人点赞 2018-12-05 16:59:11
    实时目标跟踪是许多计算机视觉应用的重要任务,如监控、基于感知的用户界面、增强现实、基于对象的视频压缩以及辅助驾驶等。 好久之前做过一次人脸检测,里面涉及到了目标跟踪。 这次实现一般的运动物体检测,关于...
  •   图像的目标检测(Object Detection)算法大体上可以分为基于传统手工特征的时期(2013年以前)以及基于深度学习的目标检测时期。从技术发展上来讲,目标检测的发展则经历了包围框回归、卷积神经网络的兴起、多参考...
  • 影响更新与compactness增强的显著目标检测,吴建国,张志华,显著目标检测旨在提取图像中人眼兴趣的部分。针对显著目标检测方法中一些算法检测的精确度不高,提出基于影响更新与compactness增�
  • a)不依赖于先验知识,直接从图像序列中检测到运动目标,并进行目标识别,最终跟踪兴趣的运动目标; b)依赖于目标的先验知识,首先为运动目标建模,然后在图像序列中实时找到相匹配的运动目标。 一.运动目标检测 ...
  • 在这篇论文中,我们解决了在户外和室内场景中一般目标检测中的遮挡处理的挑战,然后我们参考了最近已经开展的工作来克服这些挑战。最后,讨论了未来可能的研究方向。
  • 【学习笔记】经典目标检测算法

    千次阅读 2020-12-26 20:06:20
    目标检测任务的目标是找到图像中的所有兴趣区域,并确定这些区域的位置和类别。目标检测领域的深度学习方法主要分为两大类:两阶段式(Two-stage)目标检测算法和单阶段式(One-stage)目标检测算法。前者是先由...
  • 作者:Bihan Wen ...来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业...(1)目标分割,应该是Target Segmentation,应该是data/image segmentation的一种。这里假定数据是图像,就如楼上说的,任务是
  • 视频目标分割总结

    千次阅读 多人点赞 2020-07-06 14:59:25
    视频目标分割分类 最近听了阿里巴巴王文冠老师“基于深度学习技术的视频分割”的讲座,我感到受益匪浅,学习到了许多关于视频目标分割(VOS)的知识,在这里进行整理总结。关于视频目标分割的分类,有的综述文章分为无...
  • 深度学习-09(目标检测:Object Detection)

    千次阅读 2020-07-24 16:41:24
    目标检测( Object Detection )的任务是找出图像中所有兴趣的目标(物体) ,确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 77,676
精华内容 31,070
关键字:

如何加强目标感