精华内容
下载资源
问答
  • 现有的高精度目标检测算法依赖于超深的主干网络(如ResNet和Inception),无法满足实时目标检测场景的需要,相反采用轻量级主干网络(如VGG-16和MobileNet)能达到实时目标检测的目的,但会导致检测精度的损失,对小目标的...
  • 为了提高单帧红外图像的检测概率,稳定检测到图像序列中的弱小目标,基于改进的双边滤波与多项式拟合,提出了一种复杂天空背景下的红外弱小目标检测算法。在传统双边滤波算法的权值系数中引入背景相关度因子,有效降低了...
  • 使用matlab编写的运动目标跟踪算法,核心代码均自己手写,包括帧间差分法,ViBe算法和高斯混合建模法,并且使用了matlab GUI,可直接选择视频查看算法效果。
  • 本文来自csdn,本文主要介绍了目标检测算法和物体关键点检测的应用场景以及位置检测的算法特点。 目标检测概念 目标检测这里阐述两个应用场景,1为物体位置检测,2为物体关键点检测。 1物体位置检测 相比与图片分类...
  • 多种目标检测算法

    2017-05-12 12:00:17
    多种目标检测算法,背景差分法,混合高斯模型背景建模等
  • 随着深度学习的发展,卷积神经网络在目标检测中取得了一系列研究成果. 相比基于人工特征构造的传统的目标检测 ...年来基于深度学习模型的目标检测算法的研究情况,最后对目标检测算法未来的发展进行展望
  • 目标探测算法;标检测的目的在于从静态图片或视频中检测... 对此, 从支持向量机原理、目标特征模型构建、学习训练和目标检测框确定等角度, 综述了基于支持向量机的目标检测算法的研究现状, 并就进一步的发展进行了展望.
  • SSD目标检测算法论文-英文原版,SSD: Single Shot MultiBox Detector
  • 目标检测算法之YOLO

    2018-06-26 14:51:23
    关于目标检测算法之YOLO,YOLO作为基于深度学习的第一个one-stage的方法做快可以在TitanX GPU上做到45帧每秒的检测速度,轻量版的可以做到155帧每秒,快到没朋友有没有?相比于R-CNN[5]精确度也有非常大的提升53.5 ...
  • 目标检测算法七讲

    千人学习 2019-02-09 15:22:15
    基于深度学习的目标检测,RCNN->SppNET->Fast-RCNN->Faster-RCNN以及YOLO v1,v2,v3
  • 目标检测算法SSD(Single Shot MultiBox Detector)及其变体,采用pytorch, python3实现
  • 近年来,随着深度学习对图像分类准确度的大幅度提高,基于深度学习的目标检测算法逐渐成为主流。梳理了目标 检测算法的发展与现状,并作出展望:总结了传统算法与引入深度学习的目标检测算法的发展、改进与不足,并...
  • ACF目标检测算法论文

    2017-08-19 16:34:10
    ACF目标检测算法是常用的目标检测算法之一,本文主要讲述了ACF目标检测的原理
  • 针对目前目标检测技术中小目标检测困难问题, 提出了一种基于SSD (Single Shot multibox Detector) 改进的小目标检测算法Bi-SSD (Bi-directional Single Shot multibox Detector). 该算法为SSD的浅层特征设计了小目标...
  • 随着深度学习的不断发展与广泛运用,基于深度学习的目标检测算法已成为新的主流。为了进一步提高卷积神经网络YOLO v3(You only look once v3)的检测精度,在原算法的网络结构上添加卷积层模块对样本进行目标背景分类,...
  • 对基于中值相减滤波、最大中值相减滤波、最大均值相减滤波和推广的结构张量的红外弱小目标检测算法的性能进行了评估。针对传统评估方法的不足,提出了一种基于支持向量回归的红外弱小目标检测算法性能评估方法。利用...
  • 压缩包里共包含4种最常用的运动目标检测算法:混合高斯模型 相邻帧差法 运行期均值法 自适应阈值的三帧差分法 ;全部是自己总结和写的,绝对可以运行。
  • 基于卷积神经网络的目标检测算法,夏源,张洪刚,本文是基于卷积神经网络的目标检测学习算法,与传统的物体检测算法不同,基于深度学习的目标检测算法,可以通过从海量数据中自动
  • DVS和DBSCAN算法在CNN加速下的FPGA实现
  • 针对现有基于平视图像目标检测算法在航拍图像上检测精度不高的问题,提出一种具有动态感受野的单阶段目标检测算法。该算法采用SE-ResNeXt作为特征提取网络,在RetinaNet结构中添加bottom-up短连接通路和全局上下文上...
  • 目标检测算法总结

    千次阅读 2019-06-25 09:43:56
    参考:目标检测算法之SSD 概述 目前目标检测算法的主流算法主要分为两类: two-stage方法。比如R-CNN系算法。主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些...

    参考:目标检测算法之SSD

    概述

    目前目标检测算法的主流算法主要分为两类:

    1. two-stage方法。比如R-CNN系算法。主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类和回归。two-stage方法的优点是准确度高。
    2. one-stage方法。比如yolo和SSD。主要思路是均匀的在图片的不同位置上密集抽样,抽样时可以采用不同的比例和长宽比,然后用CNN提取特征后直接分类与回归,整个过程只需要一步,所以优点是速度快。但是均匀的密集采样的缺点是训练困难,主要是因为正样本与负样本(背景)及其不均衡,导致模型准确度较低。
    下图是不同算法的基本框架图:

    在这里插入图片描述

    解释
    1. Fast R-CNN首先通过CNN得到候选框,然后再分类与回归。
    2. yolo和SSD可以一步到位完成检测。
    3. SSD相比较yolo的三个不同点:
      (1)SSD采用CNN直接检测,而不是像yolo一样在全连接层后面做检测。
      (2)SSD提取不同尺寸的特征图做检测。大尺度特征图(较靠前的特征图)可以用来检测小物体,而小尺度特征图(较靠后的特征图)用来检测大物体。
      (3)SSD采用不同尺度和长宽比的先验框(prior box/default box,这个概念在Fast R-CNN中叫做锚,anchors)
    4. yolo算法的缺点是难以检测小目标,且定位不准,上面提到的SSD相较于yolo改进的三点使得SSD克服了yolo的缺点。

    SSD算法

    Single shot MultiBox Detector即SSD。single shot说明SSD是one-stage方法。MultiBox说明SSD是多框预测。SSD算法普遍在准确度和速度上都优于yolo。

    设计理念

    SSD和yolo都是采用一个CNN来检测,但是SSD采用多尺度的特征图。设计理念总结为三点。

    1. 设计理念一——采用多尺度特征图用于检测
      采用多尺度也就是采用大小不同的特征图,CNN网络一般前面的特征图比较大,后面会逐渐采用strid=2的卷积或者是pool来降低特征图大小。如下面的基本架构图所示,前面是大的特征图,后面是小的特征图。这两个不同尺度的特征图都用来做检测。目的是为了:大的特征图用来检测小目标,小特征图用来检测大目标。
      在这里插入图片描述
      下图表示不同尺寸的特征图。
      在这里插入图片描述
      8*8的特征图是大的特征图,可以划分更多的单元,但是其每个单元的先验框尺度都比较小。所以大尺度的特征图用来检测小目标。而4*4的特征图是小的特征图,但是其每个单元的先验框尺度都比较大。所以小尺度的特征图用来检测大目标。
    2. 设计理念二——采用卷积检测
      与yolo最后采用全连接层不同,SSD直接用卷积对不同的特征图提取检测结果。
    3. 设计理念三——设置先验框
      yolo中,每个单元预测多个边界框,其都是相对这个单元本身(正方块)。但是真实目标的形状是多变的,所以yolo在训练过程中需要自适应目标的形状。

    SSD借鉴Fast R-CNN中anchor的理念,每个单元设置尺度或者长宽比不同的先验框,预测的边界框(bounding box)是以这些先验框为基准,一定程度上减少训练难度。每个单元会设置多个先验框,其尺度和长宽比存在差异,如下图所示,下图中每个单元采用了四个先验框,真实图片中的猫和狗都分别选择最适合它们形状的先验框训练。

    SSD的检测值也和yolo不太一样,对于每个单元的每个先验框,都输出一套独立的检测值,对应一个边界框,主要分为两个部分:
    (1)第一部分是各个类别的置信度或者评分,要注意的是SSD将背景也当成了一个特殊的类别。如果检测目标共有C个类别,SSD需要预测C+1个置信度值,其中第一个置信度就是指的不含目标或者说是属于背景的评分。所以要注意的是:当说C个类别置信度时,里面包含了背景这个特殊类别,真实类别是C-1个。预测时,置信度最高的那个类别就是边界框所属的类别。当第一个置信度值最高时,表示边界框中不含有目标即是属于背景。
    (2)第二部分就是边界框的location。包含4个值(cx,cy,w,h),分别表示边界框的中心坐标和宽高。

    真实预测值是边界框相对于先验框的转换值。
    先验框位置如下:
    在这里插入图片描述
    对应的边界框位置如下:
    在这里插入图片描述
    边界框的预测值l就是b相对于d的转换值,即边界框位置相对于先验框位置的转换值。计算式子如下:
    在这里插入图片描述
    在预测时,需要反向上面的这个过程,从预测值l中得到边界框的真实位置b。计算式子如下:
    在这里插入图片描述

    综上,对于一个大小为mn的特征图,共有mn个单元,每个单元设置的先验框数目记为k,那么每个单元需要(c+4)k个预测值。(解释:c是表示c个类别,包括了特殊的背景类别。4表示的是4个位置参数即中心坐标和宽和高,共4个值。)故特征图所有单元共需要mn*(c+4)*k个预测值。

    SSD采用卷积做检测,需要(c+4)*k个卷积核完成这个特征图的检测。

    SSD的基本架构图

    在这里插入图片描述

    SSD的网络结构

    SSD采用VGG16作为基础模型,在VGG16的基础上新增卷积层以获得更多的特征图以用于检测。

    SSD和yolo的网络结构图如下

    在这里插入图片描述
    SSD网络结构采用一种Atrous Algorithm,就是conv6采用扩展卷积或者是带孔卷积,其在不增加参数和模型复杂度的条件下指数级扩大卷积的视野。如下图所示:第一张图是普通的33卷积,视野就是33。第二张图扩张率为2,视野变为77。第三张图扩张率为4时,视野扩大为1515,但是视野的特征更稀疏了。

    VGG16的conv4_3层作为检测的第一个特征图,conv4_3层特征图大小是38*38。但是该层较靠前,norm较大,所以在其后增加了一个L2 normalization层,以保证和后面的检测层差异不是很大。这个和batch normalization层不太一样,其仅仅是对每个像素点在channle维度做归一化。而bacth normalization层是在[batch_size width height]三个维度上做归一化。

    下图表示基于卷积得到检测结果:
    在这里插入图片描述

    训练过程

    第一步 先验框匹配

    训练过程中首先要确定训练图片中的ground truth(真实目标)与哪个先验框来进行匹配,与之匹配的先验框所对应的边界框将负责预测它。yolo中ground truth的中心落在哪个单元格,该单元格与其IOU最大的边界框负责预测它。
    SSD不一样,SSD先验框与ground truth的匹配原则有两点:

    1. 对于图片中的每个ground truth,找到与其IOU最大的先验框,该先验框与其匹配,这样可保证每个ground truth一定与某个先验框匹配,与ground truth相匹配的先验框为正样本。若一个先验框没有与任何一个ground truth相匹配则说明该先验框只能与背景相匹配,就是负样本。
      一个图片中ground truth是很少的,而先验框却很多,如果仅仅按照上面第一个原则进行匹配,那么很多先验框会是负样本,正负样本是及其不平衡的。所以需要第二个原则。
    2. 对于剩下的未匹配先验框,若某个ground truth的IOU大于某个阈值(一般是0.5),那么该先验框也与这个ground truth匹配。
    SSD匹配示意图如下

    在这里插入图片描述
    上图中绿色的GT是ground truth。红色为先验框,FP表示负样本,TP表示正样本。

    数据扩增

    data augmentation数据扩增可以提升SSD性能。采用的技术有:水平翻转horizontal flip、随机裁剪加颜色扭曲random crop / color distortion、随机采集块域randomly sample a patch(获取小目标训练样本)。如下图所示:
    在这里插入图片描述

    SSD预测过程

    1. 对于每个预测框,首先根据类别置信度确定其类别(置信度最大者)及其置信度值,并过滤掉属于背景的预测框.
    2. 根据置信度阈值(如0.5)过滤掉阈值较低的预测框。
    3. 对于留下的预测框进行解码,根据先验框得到真实的位置参数(解码后一般要做clip,防止预测框位置超出图片)
    4. 解码之后,根据置信度降序排列,然后仅仅保留top-k个预测框。
    5. 最后进行NMS算法,过滤掉那些重合度较大的预测框。
    6. 最后剩余的预测框是检测结果。

    小结论

    1. 数据扩增对于mAP的提升很大。
    2. 使用不同长宽比的先验框可以得到更好的结果。
    3. 采用多尺度的特征图用于检测很重要。
    展开全文
  • 目标检测算法论文大盘点,当前性能最强的目标检测算法,附论文和源码链接,基于coco,欢迎交流学习
    个人微信公众号:AI研习图书馆,欢迎关注~

    深度学习知识及资源分享,学习交流,共同进步~

    大盘点 | 性能最强的目标检测算法

    1. 前言

    本文针对现有目标检测(Object Detection)方向论文,做一个"最强目标检测算法"大盘点。

    项目地址:https://github.com/amusi/awesome-object-detection

    众所周知,衡量目标检测最重要的两个性能就是 精度和速度,特指 mAP 和 FPS。其实现在大多数论文要么强调 mAP 很高,要么就是强调 mAP 和 FPS 之间 Trade-off 有多好。

    本文就来盘点一下 mAP 最高的目标检测算法,将在COCO数据集上 mAP 最高的算法认为是"性能最强"目标检测算法。(COCO数据集是现在最主流的目标检测数据集,这一点看最新的顶会论文就知道了)

    时间:2019.07.07
    盘点内容:目标检测 mAP 最高的算法

    2. 正文

    说到目标检测算法,大家脑子里最先蹦出来的算法应该是 Faster R-CNN 、SSD和YOLO。

    要知道 Faster R-CNN已经是2015年提出的论文了,而YOLOv3发表出来也已经一年多了。最近目标检测相关的论文,比较典型的有:SNIPER、CornerNet、ExtremeNet、TridentNet、FSAF、FCOS、FoveaBox、两个CenterNet 和 CornerNet-Lite等。

    这么多目标检测算法,究竟哪家最强呢?!

    当前性能最强的目标检测算法

    这里我罗列几个mAP很强很强的算法,并以时间线的角度来展示。

    注意:各个网络使用不同backbone,或加不同的tricks,都会有不同的 mAP。所以只介绍所能查到最强的算法或者最强组合算法。

    1. SNIPER: Efficient Multi-Scale Training

    mAP:47.6

    Date:2018.05.23

    arXiv:https://arxiv.org/abs/1805.09300

    https://github.com/MahyarNajibi/SNIPER/
    在这里插入图片描述

    在这里插入图片描述

    2. TridentNet:Scale-Aware Trident Networks for Object Detection

    mAP:48.4

    Date:2019.01.07 (已开源)

    arXiv:https://arxiv.org/abs/1901.01892

    https://github.com/TuSimple/simpledet
    在这里插入图片描述
    在这里插入图片描述

    3. HTC + DCN + ResNeXt-101-FPN

    mAP:50.7

    Date:2019.01.22 (已开源)

    arXiv:https://arxiv.org/abs/1901.07518

    https://github.com/open-mmlab/mmdetection

    在这里插入图片描述
    在这里插入图片描述

    4. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

    mAP:48.3

    Date:2019.04.16 (未开源)

    arXiv:https://arxiv.org/abs/1904.07392

    在这里插入图片描述
    在这里插入图片描述

    5. CornerNet-Saccade+gt attention

    mAP:50.3

    Date:2019.04.18 (已开源)

    arXiv:https://arxiv.org/abs/1904.08900

    https://github.com/princeton-vl/CornerNet-Lite
    在这里插入图片描述
    在这里插入图片描述

    6. Cascade R-CNN:High Quality Object Detection and Instance Segmentation

    mAP:50.9

    Date:2019.06.24 (已开源)

    arXiv:https://arxiv.org/abs/1906.09756

    Caffe:https://github.com/zhaoweicai/cascade-rcnn

    PyTorch:https://github.com/zhaoweicai/Detectron-Cascade-RCNN
    在这里插入图片描述
    在这里插入图片描述

    7. Learning Data Augmentation Strategies for Object Detection

    mAP:50.7

    Date:2019.06.26 (已开源)

    arXiv:https://arxiv.org/abs/1906.11172

    https://github.com/tensorflow/tpu/tree/master/models/official/detection
    在这里插入图片描述
    在这里插入图片描述
    综上所述,可知改进后的 Cascade R-CNN 算法是目前(2019.07.07)目标检测方向性能最强的算法,其 mAP 为 50.9。

    侃侃

    这里将 mAP 作为目标检测最强的指标,确实有失偏颇,不够严谨,因为很多人将目标检测应用在不同的任务上,其实要求的性能也有所不同。但请放心,小编后续会统计一波 FPS最快的目标检测算法 和 mAP-FPS Trade-off 最佳的算法,敬请期待!

    调查的论文和链接我会放在:https://github.com/amusi/awesome-object-detection,欢迎各位深度学习进行点赞和交流

    如果喜欢这样的盘点,请给这篇文章来个"点赞",如果点赞的人多,其它CV方向的大盘点系列也会尽快推出!

    您的支持,是我不断创作的最大动力~

    欢迎点赞关注留言交流~

    深度学习,乐此不疲~

    个人微信公众号,欢迎关注,精彩不断~
    在这里插入图片描述

    展开全文
  • 运动目标检测算法测试视频,可测试各种算法,在做视频监控时用到的
  • 深度域适应目标检测算法概述: 综述二 标题:Foreground-Background Imbalance Problem in Deep Object Detectors: A Review(深度目标检测器中前景-背景不平衡问题综述) 作者: Joya Chen, Tong Xu 单位: 中国...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    作者丨Cynthia Yawain

    编辑丨极市平台

    本文为极市平台原创整理,如需转载,请联系极市小编。

    导读

     

    我们对2020年全部计算机视觉综述论文进行了分方向梳理,本文为第一篇,目标检测方向。

    引言

    在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步。去年上半年,极市曾盘点过计算机视觉领域综述论文,并进行了分类整理,得到了很多读者的支持。因此,在2021年初,我们对2020年出现的全部计算机视觉综述论文进行了分方向梳理,希望能帮助大家学习进步。本文是第一篇,目标检测方向。

    注:文章将同步更新于Github上,欢迎大家 star/fork(点击阅读原文即可跳转):
    https://github.com/extreme-assistant/survey-computer-vision

    综述一

    标题:Deep Domain Adaptive Object Detection: a Survey(深度域适应目标检测)
    作者:Wanyi Li, Peng Wang
    单位:中国科学院自动化研究所
    链接:https://arxiv.org/abs/2002.06797

    本文共梳理了46篇相关文献,由中科院自动化所学者发布。基于深度学习(DL)的目标检测已经取得了很大的进展,这些方法通常假设有大量的带标签的训练数据可用,并且训练和测试数据从相同的分布中提取。然而,这两个假设在实践中并不总是成立的。深域自适应目标检测(DDAOD)作为一种新的学习范式应运而生。本文综述了深域自适应目标检测方法的研究进展。

    深度域适应目标检测算法概述:

    综述二

    标题:Foreground-Background Imbalance Problem in Deep Object Detectors: A Review(深度目标检测器中前景-背景不平衡问题综述)
    作者: Joya Chen, Tong Xu
    单位: 中国科学技术大学
    链接: https://arxiv.org/abs/2006.09238

    本文研究了不平衡问题解决方案的最新进展。分析了包括一阶段和两阶段在内的各种深度检测器中不平衡问题的特征。将现有解决方案分为两类:抽样和非抽样方案,并在COCO上进行了实验对比。

    上图总结了用于解决各种对象检测框架中的前景-背景不平衡问题的不同解决方案(即基于anchor-based one-stage, anchor-free onestage, two-stage的方法)。这些解决方案包括小批量偏差采样,OHEM,IoU平衡采样,人为丢失,GHM-C,ISA,ResObj,免采样,AP丢失,DR丢失。文章在检测管道中可视化它们的使用范围。

    上图为前景-背景不平衡问题的不同解决方案的比较。文章通过准确性(AP),相对准确性改进(∆AP),超参数的数量(参数)和效率(速度)进行了比较。

    综述三

    标题:A Review and Comparative Study on Probabilistic Object Detection in Autonomous Driving(自动驾驶中的概率目标检测方法综述与比较研究)
    作者:Di Feng,Ali Harakeh,Steven Waslander,Klaus Dietmayer
    单位:乌尔姆大学、多伦多大学
    链接:https://arxiv.org/abs/2011.10671

    近年来,深度学习已成为实际的目标检测方法,并且提出了许多概率目标检测器。然而,关于深度目标检测的不确定性估计尚无总结,而且现有方法不仅建立在不同的网络上架构和不确定性估算方法,而且还可以使用各种评估指标对不同的数据集进行评估。结果,方法的比较仍然具有挑战性,最适合特定应用的模型选择也是如此。本文旨在通过对现有的用于自动驾驶应用的概率目标检测方法进行回顾和比较研究,来缓解这一问题。

    下图为城市驾驶场景中概率对象检测的概念图。使用分类概率对每个对象进行分类,并使用置信区间预测其边界框。RGB相机图像来自BDD100k数据集。

    不确定性估计在自动驾驶中的应用及实例参考:

    最先进的概率目标检测器中通常包含的关键构建块的插图,包括基础网络,检测头和后处理阶段。架构图下方还列出了每个构件的可能变体。2D图像上的输出检测结果显示为类别概率(橙色),边界框平均值(红色)和边界框角协方差矩阵的95%置信度等值线(绿色)。

    概率目标检测器概述:

    通过测试BDD验证数据集上的检测器,不进行数据集偏移的评估。将所有七个动态对象类别的结果取平均值。对于NLL,较低的值表示较好的性能。

    综述四

    标题:An Overview Of 3D Object Detection(三维目标检测技术综述)
    作者:Yilin Wang, Jiayi Ye
    单位: 阿尔伯塔大学
    链接:https://arxiv.org/abs/2010.15614

    本文共梳理37篇相关文献。由阿尔伯塔大学学者发布。点云3D对象检测最近受到了广泛关注,并成为3D计算机视觉社区中一个活跃的研究主题。然而,由于点云的复杂性,在LiDAR(光检测和测距)中识别3D对象仍然是一个挑战。行人,骑自行车的人或交通锥等物体通常用稀疏点表示,这使得仅使用点云进行检测就相当复杂。在这个项目中,我们提出了一个使用RGB和点云数据来执行多类对象识别的框架。我们使用现有的2D检测模型来定位RGB图像上的感兴趣区域(ROI),然后在点云中进行像素映射策略,最后将初始2D边界框提升到3D空间。我们使用最近发布的nuScenes数据集(包含许多数据格式的大规模数据集)来训练和评估我们提出的体系结构。

    YOLO的3D点云中的对象检测示例:

    综述五

    标题:Camouflaged Object Detection and Tracking: A Survey(伪装目标检测与跟踪研究综述)
    作者:Ajoy Mondal
    单位: IIIT Hyderabad
    链接:https://arxiv.org/abs/2012.13581

    运动目标的检测和跟踪应用于各个领域,包括监视,异常检测,车辆导航等。关于目标检测和跟踪的文献非常丰富,然而,由于其复杂性,对伪装目标检测与跟踪的研究目前取得的进展有限。本文从理论角度回顾了基于计算机视觉算法的现有伪装目标检测和跟踪技术。还讨论了该领域中一些值得探讨的问题及未来的研究方向。

    上图为各种挑战的直观图示。(a)照明变化,(b)背景杂波,(c)部分遮挡,(d)完全遮挡,(e)物体比例改变,(f)物体方向改变,(g)伪装物体,(h )姿势变化,以及(i)不规则形状的物体。

    以上是对2020年发布的目标检测方向的综述论文的总结梳理,如有遗漏和不足之处,欢迎大家在评论区补充建议。在下篇,我们将对2020年图像分割方向的综述论文进行梳理。

    3D视觉工坊后台回复关键词“目标检测”,即可打包下载上述论文。

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

    下载2

    在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

    下载3

    在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 目标检测算法对比

    万次阅读 2018-04-14 21:49:58
    R-CNN。 来自 ICCV 2015,可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,...包括本文在内的一系列目标检测算法:RCNN, Fast RCNN, Faster RCNN代表当下目...

    R-CNN。 来自 ICCV 2015,可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,2010年更带领团队获得终身成就奖,如今供职于Facebook旗下的FAIR。这篇文章思路简洁,在DPM方法多年平台期后,效果提高显著。包括本文在内的一系列目标检测算法:RCNN, Fast RCNN, Faster RCNN代表当下目标检测的前沿水平。
    这里写图片描述
    这里写图片描述
    为了能够定位和分割物体,对自下而上的区域推荐应用了大型卷积神经网络。

    提出了一种在标签数据明显不足时训练大型CNNs的办法。

    首先使用拥有大量丰富数据的辅助任务(图像分类)来进行网络预训练,然后在针对这种数据比较缺乏的任务(物体检测)进行网络调优。这种“有监督预训练-领域调优”的训练方法对那些数据缺乏的视觉任务都会非常有效。

    OverFeat。来自2014年ICLR的经典图片分类、定位、物体检测overfeat算法,本文是纽约大学Yann LeCun团队中Pierre Sermanet ,David Eigen和张翔等在13年发表的一篇论文,改进了Alex-net,并用图像缩放和滑窗方法在test数据集上测试网络;提出了一种图像定位的方法;最后通过一个卷积网络来同时进行分类,定位和检测三个计算机视觉任务,并在ILSVRC2013中获得了很好的结果。
    这里写图片描述
    本文提出了一种利用卷积网络进行分类、定位和检测的集成框架。展示了如何在 ConvNet 中有效地实现多尺度和滑动窗口方法。通过学习预测对象边界, 我们还引入了一种新的深度学习方法来定位。因此, 为了提高检测的可信度, 边界框将被累积而不是被抑制。可以使用单个共享网络同时学习不同的任务。

    第一个提供一个明确的解释如何 ConvNets 可用于定位和检测 ImageNet 数据。

    结合许多本地化预测, 可以在没有背景样本的训练的情况下进行检测, 并且有可能避免耗时和复杂的引导训练通过。

    SPP。由2015年微软研究院的何恺明等提出。SPP可以生成一个固定长度表示, 无论图像大小/规模。金字塔池对对象变形也很健壮。
    这里写图片描述
    仅从整个图像中计算特征映射一次, 然后在任意区域 (子图像) 中的池化特征生成用于训练探测器的固定长度表示。这种方法避免重复计算卷积特征。

    在最后的卷积层的顶部添加了一个SPP层,SPP层集中特征和产生固定长度的输出, 然后送入全连接层 (或其他分类器)。换言之,在网络层次的更深阶段 (卷积层和全连接层) 中执行一些信息 “聚合”, 以避免开始时需要裁剪或变形。

    SPP方法为整个输入图像计算一个卷积特征映射,然后使用从共享特征映射中提取的特征向量对每个目标提案进行分类。通过最大池化提案内部的部分特征映射来形成一个固定大小的输出(例如:6x6)达到特征提取的目的。多种大小的输出汇集在一起,然后连接成空间金字塔池化(SPP)。

    SPP不仅可以生成任意大小的图像/窗口进行测试的表示形式, 而且还允许我们在训练过程中为不同大小或比例的图像提供反馈。使用可变大小的图像进行训练会增加缩放不变性并减少过度拟合。我们开发了一种简单的多尺寸训练方法。

    在整个图像上只能运行一次卷积层 (不管窗口的数量如何), 然后在特征图上提取特征。这种方法在 R-CNN 上的速度超过了100倍。

    Fast R-CNN。 继2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,构思精巧,流程更为紧凑,大幅提升了目标检测的速度。
    这里写图片描述
    这里写图片描述
    R-CNN使用深度卷积网络来分类目标提案,明显的缺点:

    1.多阶段训练过程 R-CNN首先采用log损失在目标提案上微调卷积神经网络,然后,训练适合卷积网络特征的SVM,这些SMV作为目标检测器,使用微调来代替softmax分类器。在第三阶段,进行边界框回归。

    2.训练空间和时间消耗大 对于SVM和边界框回归的训练,特征是从每一幅图像的每一个目标提案提取出来并写入磁盘中的。

    3.目标检测速度慢 在测试时,特征是从每一幅测试图像的每一个目标提案中提取出来的。

    R-CNN速度慢是因为每一个目标提案都会通过卷积神经网络进行前向计算,而不共享计算。空间金字塔池化网络(SPPnet)通过共享计算加速了R-CNN。

    SPP方法为整个输入图像计算一个卷积特征映射,然后使用从共享特征映射中提取的特征向量对每个目标提案进行分类。通过最大池化提案内部的部分特征映射来形成一个固定大小的输出(例如:6x6)达到特征提取的目的。多种大小的输出汇集在一起,然后连接成空间金字塔池化(SPP)。

    SPP明显的缺点,像R-CNN一样,它的训练过程也是一个多阶段过程,这个过程围绕特征提取、采用log损失对网络进行微调、训练SVM和最后的拟合边界框回归展开。特征也要写入磁盘,但是,微调算法不更新SPP之前的卷积层参数,这些限制限制了深度网络的准确率。

    Fast R-CNN有如下优点:

    比R-CNN和SPPnet更高的检测质量;

    采用多任务损失,训练过程为单阶段;

    训练可以更新所有网络层;

    特征缓存不需要磁盘存储。

    Fast R-CNN网络将一幅完整的图像和一系列目标提案作为输入。该网络首先采用一些卷积层和最大池化层生成卷积特征映射来处理整个图像。然后,对于每一个目标提案,感兴趣区域(RoI)池化层从特征映射中提取出一个固定长度的特征向量。每一个特征向量被送到一系列的全连接层(fc)最终分支到两个同级输出层:一层是在所有K个目标类加上一个全方位的背景类产生softmax概率估计;另一层则对每个K类目标输出4个真实数字,每一组的4个值编码了一个K类目标的精确的边界框位置。

    采用反向传播计算所有网络权重是Fast R-CNN的一项非常重要的能力,SPPnet在空间金字塔池化层下不能更新权重的根本原因是当来自于不同图像的训练样本通过SPP层时,它所使用的反向传播算法的效率是非常低的,这是由SPPnet和R-CNN的训练方式所决定的。这种低效源于这样一个事实,那就是每一个RoI有一个非常大的感受野,通常包含整个图像。由于前向传播必须处理整个感受野,而训练输入又很大(通常是整幅图像)。

    在训练时利用特征共享的优点。在Fast R-CNN的训练中,随机梯度下降(SGD)的小批采用分层次采样,首先采样N幅图像,然后从每幅图像中采样R/N个RoI。关键的是,来自同一图像的RoI在前向和后向过程中共享计算和内存。

    除了分层抽样之外,Fast R-CNN使用了具有一个微调阶段的流线型训练过程,这个微调阶段联合优化了一个softmax分类器和边界框回归,而不是训练一个softmax分类器、SVM和三个独立阶段的回归。这个过程的组成部分:损失、小批量采样策略、RoI池化层的反向传播、SGD超参数。

    Faster R-CNN。经过RCNN和Fast RCNN的积淀,微软研究院的任少庆、何恺明以及Ross Girshick等人在2015年提出了新的Faster RCNN。
    这里写图片描述
    一个区域提出网络(RPN),该网络与检测网络共享全图像的卷积特征,近乎零成本的区域提出。RPN是一个全卷积网络,可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练,可以生成高质量的区域提出,由Fast R-CNN用于检测。我们将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络——使用最近流行的具有“注意力”机制的神经网络术语,RPN组件告诉统一网络在哪里寻找。

    区域提议方法通常依赖廉价的特征和简练的推断方案。选择性搜索是最流行的方法之一,它贪婪地合并基于设计的低级特征的超级像素。

    基于区域的检测器所使用的卷积特征映射,如Fast R-CNN,也可以用于生成区域提议。在这些卷积特征之上,我们通过添加一些额外的卷积层来构建RPN,这些卷积层同时在规则网格上的每个位置上回归区域边界和目标分数。因此RPN是一种全卷积网络(FCN),可以针对生成检测区域建议的任务进行端到端的训练。

    RPN旨在有效预测具有广泛尺度和长宽比的区域提议。与使用图像金字塔或滤波器金字塔的流行方法相比,引入新的“锚”盒作为多种尺度和长宽比的参考。我们的方案可以被认为是回归参考金字塔,它避免了枚举多种比例或长宽比的图像或滤波器。

    在微调区域提议任务和微调目标检测之间进行交替,同时保持区域提议的固定。该方案快速收敛,并产生两个任务之间共享的具有卷积特征的统一网络。

    R-CNN方法端到端地对CNN进行训练,将提议区域分类为目标类别或背景。

    R-CNN主要作为分类器,并不能预测目标边界,其准确度取决于区域提议模块的性能。

    OverFeat,训练一个全连接层来预测假定单个目标定位任务的边界框坐标。然后将全连接层变成卷积层,用于检测多个类别的目标。

    MultiBox方法,从网络中生成区域提议,网络最后的全连接层同时预测多个类别不相关的边界框,并推广到OverFeat的“单边界框”方式。这些类别不可知的边界框框被用作R-CNN的提议区域。与我们的全卷积方案相比,MultiBox提议网络适用于单张裁剪图像或多张大型裁剪图像(例如224×224)。MultiBox在提议区域和检测网络之间不共享特征。

    卷积共享计算,可以有效而准确地进行视觉识别。

    OverFeat论文计算图像金字塔的卷积特征用于分类,定位和检测。共享卷积特征映射的自适应大小池化(SPP)被开发用于有效的基于区域的目标检测和语义分割。Fast R-CNN能够对共享卷积特征进行端到端的检测器训练,并显示出令人信服的准确性和速度。

    Faster R-CNN,由两个模块组成。第一个模块是提议区域的深度全卷积网络,第二个模块是使用提议区域的Fast R-CNN检测器。整个系统是一个单个的,统一的目标检测网络。使用最近流行的“注意力”机制的神经网络术语,RPN模块告诉Fast R-CNN模块在哪里寻找。

    解决多尺度和尺寸的不同方案。(a)构建图像和特征映射金字塔,分类器以各种尺度运行。(b)在特征映射上运行具有多个比例/大小的滤波器的金字塔。(c)我们在回归函数中使用参考边界框金字塔。

    YOLO。是在CVPR2016提出的一种目标检测算法,核心思想是将目标检测转化为回归问题求解,并基于一个单独的end-to-end网络,完成从原始图像的输入到物体位置和类别的输出。
    这里写图片描述
    这里写图片描述
    YOLO在进行预测时,会对图像进行全面地推理。与基于滑动窗口和区域提出的技术不同,YOLO在训练期间和测试时会看到整个图像,所以它隐式地编码了关于类的上下文信息以及它们的外观。快速R-CNN是一种顶级的检测方法,因为它看不到更大的上下文,所以在图像中会将背景块误检为目标。与快速R-CNN相比,YOLO的背景误检数量少了一半。

    可变形部件模型。可变形零件模型(DPM)使用滑动窗口方法进行目标检测。DPM使用不相交的流程来提取静态特征,对区域进行分类,预测高评分区域的边界框等。我们的系统用单个卷积神经网络替换所有这些不同的部分。网络同时进行特征提取,边界框预测,非极大值抑制和上下文推理。网络内嵌训练特征而不是静态特征,并为检测任务优化它们。我们的统一架构导致了比DPM更快,更准确的模型。

    R-CNN及其变种使用区域提出而不是滑动窗口来查找图像中的目标。选择性搜索产生潜在的边界框,卷积网络提取特征,SVM对边界框进行评分,线性模型调整边界框,非极大值抑制消除重复检测。这个复杂流程的每个阶段都必须独立地进行精确调整,所得到的系统非常慢,测试时每张图像需要超过40秒。

    YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框并使用卷积特征对这些框进行评分。但是,我们的系统对网格单元提出进行了空间限制,这有助于缓解对同一目标的多次检测。我们的系统还提出了更少的边界框,每张图像只有98个,而选择性搜索则只有2000个左右。最后,我们的系统将这些单独的组件组合成一个单一的,共同优化的模型。

    MultiBox。Szegedy等人训练了一个卷积神经网络来预测感兴趣区域,而不是使用选择性搜索。MultiBox还可以通过用单类预测替换置信度预测来执行单目标检测。然而,MultiBox无法执行通用的目标检测,并且仍然只是一个较大的检测流程中的一部分,需要进一步的图像块分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框,但是YOLO是一个完整的检测系统。

    OverFeat。Sermanet等人训练了一个卷积神经网络来执行定位,并使该定位器进行检测。OverFeat高效地执行滑动窗口检测,但它仍然是一个不相交的系统。OverFeat优化了定位,而不是检测性能。像DPM一样,定位器在进行预测时只能看到局部信息。OverFeat不能推断全局上下文,因此需要大量的后处理来产生连贯的检测。

    MultiGrasp。我们的工作在设计上类似于Redmon等的抓取检测。我们对边界框预测的网格方法是基于MultiGrasp系统抓取的回归分析。然而,抓取检测比目标检测任务要简单得多。MultiGrasp只需要为包含一个目标的图像预测一个可以抓取的区域。不必估计目标的大小,位置或目标边界或预测目标的类别,只找到适合抓取的区域。YOLO预测图像中多个类别的多个目标的边界框和类别概率。

    YOLO比Fast R-CNN的背景误检要少得多。通过使用YOLO消除Fast R-CNN的背景检测,我们获得了显著的性能提升。对于R-CNN预测的每个边界框,我们检查YOLO是否预测一个类似的框。如果是这样,我们根据YOLO预测的概率和两个盒子之间的重叠来对这个预测进行提升。

    YOLO,一种统一的目标检测模型。我们的模型构建简单,可以直接在整张图像上进行训练。与基于分类器的方法不同,YOLO直接在对应检测性能的损失函数上训练,并且整个模型联合训练。

    SSD。是Wei Liu在ECCV 2016上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势(不过已经被CVPR 2017的YOLO9000超越)。
    这里写图片描述
    这里写图片描述
    提出了一种使用单个深度神经网络来检测图像中的目标的方法。将边界框的输出空间离散化为不同长宽比的一组默认框和并缩放每个特征映射的位置。在预测时,网络会在每个默认框中为每个目标类别的出现生成分数,并对框进行调整以更好地匹配目标形状。此外,网络还结合了不同分辨率的多个特征映射的预测,自然地处理各种尺寸的目标。相对于需要目标提出的方法,SSD非常简单,因为它完全消除了提出生成和随后的像素或特征重新采样阶段,并将所有计算封装到单个网络中。这使得SSD易于训练和直接集成到需要检测组件的系统中。

    SSD,是一种针对多个类别的单次检测器,比先前的先进的单次检测器(YOLO)更快,并且准确得多,事实上,与执行显式区域提出和池化的更慢的技术具有相同的精度(包括Faster R-CNN)。

    SSD的核心是预测固定的一系列默认边界框的类别分数和边界框偏移,使用更小的卷积滤波器应用到特征映射上。

    为了实现高检测精度,我们根据不同尺度的特征映射生成不同尺度的预测,并通过纵横比明确分开预测。

    这些设计功能使得即使在低分辨率输入图像上也能实现简单的端到端训练和高精度,从而进一步提高速度与精度之间的权衡。

    在图像中有两种建立的用于目标检测的方法,一种基于滑动窗口,另一种基于区域提出分类。在卷积神经网络出现之前,这两种方法的最新技术——可变形部件模型(DPM)和选择性搜索——具有相当的性能。然而,在R-CNN结合选择性搜索区域提出和基于后分类的卷积网络带来的显著改进后,区域提出目标检测方法变得流行。

    最初的R-CNN方法已经以各种方式进行了改进。第一套方法提高了后分类的质量和速度,因为它需要对成千上万的裁剪图像进行分类,这是昂贵和耗时的。SPPnet显著加快了原有的R-CNN方法。它引入了一个空间金字塔池化层,该层对区域大小和尺度更鲁棒,并允许分类层重用多个图像分辨率下生成的特征映射上计算的特征。Fast R-CNN扩展了SPPnet,使得它可以通过最小化置信度和边界框回归的损失来对所有层进行端到端的微调,最初在MultiBox中引入用于学习目标。

    MultiBox中,基于低级图像特征的选择性搜索区域提出直接被单独的深度神经网络生成的提出所取代。这进一步提高了检测精度,但是导致了一些复杂的设置,需要训练两个具有依赖关系的神经网络。Faster R-CNN将选择性搜索提出替换为区域提出网络(RPN)学习到的区域提出,并引入了一种方法,通过交替两个网络之间的微调共享卷积层和预测层将RPN和Fast R-CNN结合在一起。通过这种方式,使用区域提出池化中级特征,并且最后的分类步骤比较便宜。我们的SSD与Faster R-CNN中的区域提出网络(RPN)非常相似,因为我们也使用一组固定的(默认)边界框进行预测,类似于RPN中的锚边界框。但是,我们不是使用这些来池化特征并评估另一个分类器,而是为每个目标类别在每个边界框中同时生成一个分数。因此,我们的方法避免了将RPN与Fast R-CNN合并的复杂性,并且更容易训练,更快且更直接地集成到其它任务中。

    完全跳过提出步骤,直接预测多个类别的边界框和置信度。OverFeat是滑动窗口方法的深度版本,在知道了底层目标类别的置信度之后,直接从最顶层的特征映射的每个位置预测边界框。YOLO使用整个最顶层的特征映射来预测多个类别和边界框(这些类别共享)的置信度。我们的SSD方法属于这一类,因为我们没有提出步骤,但使用默认边界框。然而,我们的方法比现有方法更灵活,因为我们可以在不同尺度的多个特征映射的每个特征位置上使用不同长宽比的默认边界框。如果我们只从最顶层的特征映射的每个位置使用一个默认框,我们的SSD将具有与OverFeat相似的架构;如果我们使用整个最顶层的特征映射,并添加一个全连接层进行预测来代替我们的卷积预测器,并且没有明确地考虑多个长宽比,我们可以近似地再现YOLO。

    SSD,一种快速的单次多类别目标检测器。我们模型的一个关键特性是使用网络顶部多个特征映射的多尺度卷积边界框输出。这种表示使我们能够高效地建模可能的边界框形状空间。我们通过实验验证,在给定合适训练策略的情况下,大量仔细选择的默认边界框会提高性能。我们构建的SSD模型比现有的方法至少要多一个数量级的边界框预测采样位置,尺度和长宽比。

    FCN。 CVPR 2015拿到best paper候选的论文。卷积网络在特征分层领域是非常强大的视觉模型。我们证明了经过端到端、像素到像素训练的卷积网络超过语义分割中最先进的技术。我们的核心观点是建立“全卷积”网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出。我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用。我们改编当前的分类网络(AlexNet,the VGG net , and GoogLeNet )到完全卷积网络和通过微调 传递它们的学习表现到分割任务中。然后我们定义了一个跳跃式的架构,结合来自深、粗层的语义信息和来自浅、细层的表征信息来产生准确和精细的分割。
    这里写图片描述
    我们证明了经过端到端 、像素到像素训练的的卷积网络超过语义分割中没有further machinery的最先进的技术。我们认为,这是第一次训练端到端(1)的FCN在像素级别的预测,而且来自监督式预处理(2)。全卷积在现有的网络基础上从任意尺寸的输入预测密集输出。学习和推理能在全图通过密集的前馈计算和反向传播一次执行。网内上采样层能在像素级别预测和通过下采样池化学习。

    我们的方法是基于最近深层网络在图像分类上的成功和迁移学习。转移第一次被证明在各种视觉识别任务 ,然后是检测,不仅在实例还有融合proposal-classification模型的语义分割 。我们现在重新构建和微调直接的、dense prediction语义分割的分类网。在这个框架里我们绘制FCNs的空间并将过去的或是最近的先验模型置于其中。

    我们改编和扩展了深度分类架构,使用图像分类作为监督预处理,和从全部图像的输入和ground truths(用于有监督训练的训练集的分类准确性)通过全卷积微调进行简单且高效的学习。

    我们通过跨层和融合特征来定义一种非线性的局部到整体的表述用来协调端到端。

    我们的模型通过重新解释分类网到全卷积网络和微调它们的学习表现将最近在分类上的成功移植到dense prediction。与此相反,先前的工作应用的是小规模、没有超像素预处理的卷积网。

    FCN设计和密集预测权衡。

    将这些分类网络扩展到分割并通过多分辨率的层结合显著提高先进的技术,同时简化和加速学习和推理。

    R-FCN。这篇论文是NIPS 2016的一篇论文,主要贡献在于解决了“分类网络的位置不敏感性(translation-invariance in image classification)”与“检测网络的位置敏感性(translation-variance in object detection)”之间的矛盾,在提升精度的同时利用“位置敏感得分图(position-sensitive score maps)”提升了检测速度。
    这里写图片描述
    提出了基于区域的全卷积网络,以实现准确和高效的目标检测。与先前的基于区域的检测器(如Fast/Faster R-CNN)相比,这些检测器应用昂贵的每个区域子网络数百次,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享。为了实现这一目标,我们提出了位置敏感分数图,以解决图像分类中的平移不变性与目标检测中的平移变化之间的困境。因此,我们的方法可以自然地采用全卷积图像分类器的主干网络,如最新的残差网络(ResNets),用于目标检测。

    开发了一个称为基于区域的全卷积网络(R-FCN)框架来进行目标检测。我们的网络由共享的全卷积架构组成,就像FCN一样。为了将平移可变性并入FCN,我们通过使用一组专门的卷积层作为FCN输出来构建一组位置敏感的分数图。这些分数图中的每一个都对关于相对空间位置(的位置信息进行编码例如,“在目标的左边”)。在这个FCN之上,我们添加了一个位置敏感的RoI池化层,它从这些分数图中获取信息,并且后面没有权重(卷积/fc)层。整个架构是端到端的学习。所有可学习的层都是卷积的,并在整个图像上共享,但对目标检测所需的空间信息进行编码。

    R-CNN评估裁剪区域和变形区域的卷积网络,计算不在区域之间共享。SPPnetFast R-CNN和Faster R-CNN是“半卷积”的,卷积子网络在整张图像上进行共享计算,另一个子网络评估单个区域。

    FPN。 来自CVPR 2017。利用深度卷积网络内在的多尺度、金字塔分级来构造具有很少额外成本的特征金字塔。开发了一种具有横向连接的自顶向下架构,用于在所有尺度上构建高级语义特征映射。这种称为特征金字塔网络(FPN)的架构在几个应用程序中作为通用特征提取器表现出了显著的改进。

    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    Deep ConvNet按层计算特征层, 并且具有抽样层, 特征层具有固有的多尺度、金字塔形状。这种网络特征层产生了不同空间分辨率的特征映射, 但引入了不同深度引起的大语义缺口。高分辨率的映射具有低级的特征, 损害了它们的表示能力, 用于物体识别。

    SSD 风格的金字塔将重用在正向传递中计算的不同层的多尺度特征映射, 并且没有成本。但为了避免使用低级特征 SSD 放弃再利用已经计算的层, 取而代之的是在网络中从高处开始构建金字塔 (例如, conv4 3 of VGG nets ), 然后添加几个新层。因此, 它错失了重用特征层的高分辨率映射的机会。我们表明, 这些对检测小物体很重要。

    本文的目标是自然地利用 ConvNet 的特征层的金字塔形状, 同时创建一个具有强烈语义的特征金字塔。为了实现这一目标, 我们依赖于一种体系结构, 它将低分辨率、语义强的特征与高分辨率、语义较弱的特征结合起来, 通过自上而下的途径和横向连接 (图 1 (d))。其结果是一个特征金字塔, 它在所有级别都具有丰富的语义, 并且从单一输入图像比例快速构建。换言之, 我们展示了如何创建网络内特征金字塔, 可用于替换 featurized image pyramids而不牺牲表现力、速度或内存。

    我们的方法采取一个任意大小的单尺度图像作为输入, 并输出成比例大小的特征映射在多个标准, 以完全卷积的方式。此过程独立于主干卷积体系结构。

    YOLO9000。 YOLO是Joseph Redmon和Ali Farhadi等人于2015年提出的第一个基于单个神经网络的目标检测系统。在2017年CVPR上,Joseph Redmon和Ali Farhadi发表的YOLOv2进一步提高了检测的精度和速度。

    一个先进的实时目标检测系统YOLO9000,可以检测超过9000个目标类别。

    多尺度训练方法。

    YOLOv2模型可以以不同的尺寸运行,从而在速度和准确性之间提供了一个简单的折衷。

    提出了一种联合训练目标检测与分类的方法。使用这种方法,我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练允许YOLO9000预测未标注的检测数据目标类别的检测结果。

    标注检测图像要比标注分类或贴标签要昂贵得多。

    提出了一种新的方法来利用我们已经拥有的大量分类数据,并用它来扩大当前检测系统的范围。我们的方法使用目标分类的分层视图,允许我们将不同的数据集组合在一起。

    还提出了一种联合训练算法,使我们能够在检测和分类数据上训练目标检测器。我们的方法利用标记的检测图像来学习精确定位物体,同时使用分类图像来增加词表和鲁棒性。

    首先,我们改进YOLO基础检测系统,产生最先进的实时检测器YOLOv2。然后利用我们的数据集组合方法和联合训练算法对来自ImageNet的9000多个类别以及COCO的检测数据训练了一个模型。

    YOLO造成了大量的定位误差。此外,与基于区域提出的方法相比,YOLO召回率相对较低。因此,我们主要侧重于提高召回率和改进定位,同时保持分类准确性。

    批标准化。
    高分辨率分类器。
    具有锚盒的卷积。
    维度聚类。
    直接位置预测。
    细粒度功能。
    多尺度训练。
    分类训练。
    检测训练。
    分层分类。
    与WordTree的数据集组合。
    联合分类和检测。

    YOLOv2和YOLO9000,两个实时检测系统。YOLOv2在各种检测数据集上都是最先进的,也比其他检测系统更快。此外,它可以运行在各种图像大小,以提供速度和准确性之间的平滑折衷。

    YOLO9000是一个通过联合优化检测和分类来检测9000多个目标类别的实时框架。我们使用WordTree将各种来源的数据和我们的联合优化技术相结合,在ImageNet和COCO上同时进行训练。YOLO9000是在检测和分类之间缩小数据集大小差距的重要一步。

    我们的许多技术都可以泛化到目标检测之外。我们对ImageNet的WordTree表示为图像分类提供了更丰富,更详细的输出空间。使用分层分类的数据集组合在分类和分割领域将是有用的。像多尺度训练这样的训练技术可以为各种视觉任务提供益处。

    Mask R-CNN。 ICCV 2017 的最佳论文奖(Best Paper Award),彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂的多任务网络模型。Mask R-CNN就是典型的代表。
    这里写图片描述
    我们提出了一个概念上简单,灵活和通用的目标分割框架。我们的方法有效地检测图像中的目标,同时为每个实例生成高质量的分割掩码。通过添加一个与现有目标检测框回归并行的,用于预测目标掩码的分支来扩展Faster R-CNN。

    通过添加一个用于在每个感兴趣区域(RoI)上预测分割掩码的分支来扩展Faster R-CNN,这个分支与用于分类和目标检测框回归的分支并行执行,掩码分支是作用于每个RoI的小FCN,以像素到像素的方式预测分割掩码。Mask R-CNN易于实现和训练,它是基于Faster R-CNN这种灵活的框架的。此外,掩码分支只增加了很小的计算开销。

    在原理上,Mask R-CNN是Faster R-CNN的直接扩展,而要获得良好的结果,正确构建掩码分支至关重要。最重要的是,Faster R-CNN不是为网络输入和输出之间的像素到像素对齐而设计的。实际上,应用到目标上的核心操作执行的是粗略的空间量化特征提取。为了修正错位,我们提出了一个简单的,量化无关的层,称为RoIAlign,可以保留精确的空间位置。其次,我们发现解耦掩码和分类至关重要:我们为每个类独立地预测二进制掩码,这样不会跨类别竞争,并且依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行每像素多类分类,分割和分类同时进行,基于我们的实验,对于目标分割效果不佳。

    R-CNN:R-CNN方法是通过找到一定数量的候选区域,并独立地在每个RoI上执行卷积来进行目标检测的。 基于R-CNN的改进,使用RoIPool在特征图上选取RoI,实现了更快的速度和更好的准确性。Faster R-CNN通过使用RPN学习注意机制来产生候选框。还有后续的对Faster R-CNN灵活性和鲁棒性的改进。

    目标分割:在R- CNN的有效性的推动下,目标分割的许多方法都是基于segment proposals的。先前的方法依赖自下而上的分割。 DeepMask和通过学习提出分割候选,然后使用Fast R-CNN分类。在这些方法中,分割先于识别,这样做既慢又不太准确。同样,Dai等人提出了一个复杂的多级联级联,从候选框中预测候选分割,然后进行分类。相反,我们的方法并行进行掩码和类标签的预测,更简单也更灵活。

    Mask R-CNN在概念上是简单的:Faster R-CNN为每个候选目标输出类标签和边框偏移量。为此,我们添加了一个输出目标掩码的第三个分支。因此,Mask R-CNN是一种自然而直观的点子。但是,附加的掩码输出与类和框输出不同,需要提取对象的更精细的空间布局。像素到像素对齐是Fast/Faster R-CNN的主要缺失。

    Mask R-CNN:Mask R-CNN采用相同的两个阶段,具有相同的第一阶段(即RPN)。在第二阶段,与预测类和框偏移量并行,Mask R-CNN还为每个RoI输出二进制掩码。这与最近的其它系统相反,其分类取依赖于掩码预测。我们的方法遵循Fast R-CNN ,预测类和框偏移量并行(这在很大程度上简化了R-CNN的多级流水线)

    展开全文
  • 传统的基于局部特征的图像目标检测算法具有对遮挡和旋转敏感、检测精度不高以及运算速度慢的特点,为了改进该算法的性能,提出了一种将图像局部特征应用于稀疏表示理论的图像目标检测算法。该算法利用随机树的方式有...
  • YOLO目标检测算法

    千次阅读 2020-03-30 15:01:09
    本文主要介绍YOLO目标检测算法,包括YOLOv1、YOLOv2和YOLOv3。
  • 目标检测算法——小目标检测

    千次阅读 2021-07-01 18:35:25
    一、定义 1、以物体检测领域的通用数据集COCO...1、包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测。 2、由小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标
  • 可见光低慢小飞行目标检测技术在军用民用领域有着特殊的意义,当视频背景中包含动态干扰、复杂云像等复杂情况时,检测诸如民用无人机等低慢小飞行目标十分困难,为此本文提出了一种基于视觉显著性的飞行目标智能检测...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 217,881
精华内容 87,152
关键字:

目标检测算法