精华内容
下载资源
问答
  • 最新目标检测论文

    千次阅读 2019-12-12 09:35:15
    【1】多方向目标检测:水平边界框上的滑动顶点 【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测 【3】基于PSNet和边框回归的弱监督目标检测(WSOD) 【4】带有可见IoU和Box Sign预测器的遮挡性行人检测 ...

    目录

    【1】多方向目标检测:水平边界框上的滑动顶点

    【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

    【3】基于PSNet和边框回归的弱监督目标检测(WSOD)

    【4】带有可见IoU和Box Sign预测器的遮挡性行人检测

    【5】CSPNet:可以增强CNN学习能力的新型Backbone

    【6】ReBiF:残差双融合特征金字塔网络,用于精确的Single-shot目标检测

    【7】目标检测的性能上界讨论

    【8】DIoU Loss:更快更好地学习边界框回归

    【9】CoAE:用于One-Shot目标检测的共同注意和共同激励

    【10】SAPD:Soft Anchor-Point目标检测

    【11】MMOD:基于混合模型的目标检测边界框密度估计

    【12】IENet:方向性航空目标检测的One Stage Anchor Free检测器

    【13】MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

    【14】IPG-Net:用于目标检测的图像金字塔引导网络

    【15】MAL:用于目标检测的多Anchor学习

    【16】ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择



    1】多方向目标检测:水平边界框上的滑动顶点

    《Gliding vertex on the horizontal bounding box for multi-oriented object detection》

    时间:20191123

    作者团队:华科(白翔组)&武大&上交

    链接:https://arxiv.org/abs/1911.09358

    注:本论文性能优于CAD-Net、R2CNN++,在DOAT上53.49mAP/10.0FPS!表现SOTA!

     

    网络结构

     

     


    【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

    《SM-NAS: Structural-to-Modular Neural Architecture Search for Object Detection》

    时间:20191125(AAAI 2020)

    作者团队:华为诺亚&中山大学

    链接:https://arxiv.org/abs/1911.09929

    注:又一篇用NAS做目标检测的论文,在COCO上可达42.8mAP/20FPS!最高可达45.9mAP,优于同类的NAS-FPN和DetNAS

     

     

    SM-NAS Pipeline

     

     


    【3】基于PSNet和边框回归的弱监督目标检测(WSOD)

    《WSOD with PSNet and Box Regression》

    时间:20191127

    作者团队:清华大学

    链接:https://arxiv.org/abs/1911.11512

    注:性能优于WSRPN、PCL等弱监督目标检测方法,表现SOTA!

     

    WSOD 网络结构

     


    【4】带有可见IoU和Box Sign预测器的遮挡性行人检测

    Occluded Pedestrian Detection with Visible IoU and Box Sign Predictor》

    时间:20191127

    作者团队:清华大学

    链接:https://arxiv.org/abs/1911.11449

    注:性能优于OR-CNN等网络

     

    网络结构

     

     


    【5】CSPNet:可以增强CNN学习能力的新型Backbone

    《CSPNet: A New Backbone that can Enhance Learning Capability of CNN》

    时间:20191128

    作者团队:中央研究院資訊科學研究所&台湾交通大学

    链接:https://arxiv.org/abs/1911.11929

    https://github.com/WongKinYiu/CrossStagePartialNetworks

    注:很棒的backbone,在检测任务上性能优于YOLOv3-tiny,CSPPeleeNet在Jetson TX2速度高达41FPS!现已开源

     

     


    【6】ReBiF:残差双融合特征金字塔网络,用于精确的Single-shot目标检测

    《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》

    时间:20191128

    作者团队:台湾交通大学&阿联酋大学

    链接:https://arxiv.org/abs/1911.12051

    注:ReBiF在mAP和FPS上都优于YOLOv3和RFBNet等网络

     

    Residual bi-fusion feature pyramid network 

     

     


    【7目标检测的性能上界讨论

    《Empirical Upper-bound in Object Detection and More》

    时间:20191128

    作者团队:西弗吉尼亚大学&MarkableAI

    链接:https://arxiv.org/abs/1911.12451

    注:在作者的计算方式下,PASCAL VOC (test2007) 的上界可以达到 91.6%,COCO (val2017) 可以达到 78.2%, OpenImages V4 (val) 可以达到 58.9%,它们的上界离现在所能达到的最佳的性能仍有很大的差距

    解读:目标检测的性能上界讨论

     

     


    【8】DIoU Loss:更快更好地学习边界框回归

    《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

    时间:20191129(AAAI 2020)

    作者团队:天津大学&中国人民公安大学

    链接:https://arxiv.org/abs/1911.08287

    注:DIoU Loss对YOLOv3、SSD、Faster R-CNN都有明显涨点,现已开源!

    解读:DIoU YOLOv3:更加稳定有效的目标框回归损失

     

     


    【9】CoAE:用于One-Shot目标检测的共同注意和共同激励

    《One-Shot Object Detection with Co-Attention and Co-Excitation》

    时间:20191202(NeurIPS 2019)

    作者团队:国立清华大学&中央研究院等

    链接:https://arxiv.org/abs/1911.12529

    代码:https://github.com/timy90022/One-Shot-Object-Detection

     

    网络结构

     


    【10】SAPD:Soft Anchor-Point目标检测

    《Soft Anchor-Point Object Detection》

    时间:20191202

    作者团队:卡耐基梅隆大学(CMU)

    链接:https://arxiv.org/abs/1911.12448

    注:SAPD:目前最强Anchor-free目标检测网络,性能高达47.4mAP/4.5FPS!性能秒杀FreeAnchor、CenterNet、FSAF、FCOS和FoveaBox等

     

    COCO test-dev Speed vs mAP

     

    Training strategy

     

     


    【11MMOD:基于混合模型的目标检测边界框密度估计

    《Mixture-Model-based Bounding Box Density Estimation for Object Detection》

    时间:20191202

    作者团队:首尔大学

    链接:https://arxiv.org/abs/1911.12721

    注:MMOD性能可达38.7 mAP/26FPS!但还是不如ASFF,代码即将开源

     

    MMOD 网络结构

     


    【12】IENet:方向性航空目标检测的One Stage Anchor Free检测器

    《IENet: Interacting Embranchment One Stage Anchor Free Detector for Orientation Aerial Object Detection》

    时间:20191203

    作者团队:哈尔滨工程大学

    链接:https://arxiv.org/abs/1912.00969

    注:IENet用于旋转性边界框(OBB)的One Stage Anchor Free目标检测新网络

     

    IENet Head

     

     


    【13】MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

    MnasFPN: Learning Latency-aware Pyramid Architecture for Object Detection on Mobile Devices》

    时间:20191204

    作者团队:谷歌AI&谷歌大脑(Quoc V. Le大佬)

    链接:https://arxiv.org/abs/1912.01106

    注:MnasFPN无论mAP还是FPS均优于MobileNetV3+SSDLite和NAS-FPNLite

     

    IMnasFPN 网络结构

     


    【14IPG-Net:用于目标检测的图像金字塔引导网络

    《IPG-Net: Image Pyramid Guidance Network for Object Detection》

    时间:20191205

    作者团队:北京理工大学&三星

    链接:https://arxiv.org/abs/1912.00632

    注:在COCO上可达45.7mAP,在VOC上可达85.9,性能优于CenterNet、FSAF和SNIPER等网络

     

    Model Backbone

     

     


    15】MAL:用于目标检测的多Anchor学习

    《Multiple Anchor Learning for Visual Object Detection》

    时间:20191206

    作者团队:CMU&中科院等

    链接:https://arxiv.org/abs/1912.02252

    注:在single/multi-scale下,one-stage系列的MAL性能分别可达45.9/47.0 mAP!优于FreeAnchor、CenterNet等网络

     

    MAL 思想

    MAL 网络结构

     

     


    16】ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择

    《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》

    时间:20191206

    作者团队:中科院&国科大&北邮等

    链接:https://arxiv.org/abs/1912.02424

    代码:https://github.com/sfzhang15/ATSS

    注:ATSS在COCO上,single/multi scale分别可达47.7和50.7mAP!很强势,现已开源!

     

     

    为了方便下载,我已经将上述论文打包,在 CVer公众号 后台回复:20191209 即可获得打包链接。

    展开全文
  • 聊一聊最新目标检测算法 公众号: 卡本特 后台回复 “09” 获取打包文章 上一篇文章写了现在目标检测还有哪些东西可以做,然后有读者就问了目前有哪些值得工程部署去应用的算法,所以今天来聊一聊值得去跟进的...

    聊一聊最新的目标检测算法
    公众号: 卡本特
    后台回复 “09” 获取打包文章
    在这里插入图片描述
    上一篇文章写了现在目标检测还有哪些东西可以做,然后有读者就问了目前有哪些值得工程部署去应用的算法,所以今天来聊一聊值得去跟进的一些目标检测算法。
    在这里插入图片描述
    上面这张图是2015年到2019年的SOAT的算法在coco上的box AP指标变化折线图,从这张图里面可以看出目前最好的成绩是53.3,其方法还是Cascade Mask RCNN,主干网络是Triple-ResNeXt152。目标检测最近值得关注的文章莫过于EfficientDet,虽然其EfficientDet-D7的成绩为51.0稍逊于SOAT的53.3,但是其方法很值得关注一波。

    我根据最近的coco上的成绩,列了一个表格,如下

    排名 方法 Box AP 文章链接 github
    1 Cascade Mask R-CNN 53.3 CBNet CBNet
    2 EfficientDet-D7 51.0 EfficientDet pytorch版 TF版
    3 ATSS 50.7 ATSS ATSS
    4 EfficientDet-D6 50.6
    5 EfficientDet-D5 49.8
    6 TridentNet 48.4 TridentNet simpleDet
    7 GCNet 48.4 GCNet GCNet
    21 FCOS 44.7 FCOS FCOS
    26 M2Det 44.2 M2Det M2Det
    27 YOLO3+ASFF 43.9 ASSF ASSF

    上面排名是根据coco上的box AP值从大到小排出来的,具体的排名可以参考github上的pwc项目

    这里面列举出来的算法都是关注量非常高的算法,一方面其成绩非常不错,另一方面适合部署。如果一个算法的成绩非常好,但是运算非常耗时,这样也不在关注视野内。

    1、Efficient
    在这里插入图片描述
    EfficientDet提出了7种不同的网络结构,根据其复杂度不同,可以适应不同计算能力的平台,直接把YOLOV3按在地上摩擦

    2、ATSS

    张士峰大佬的新作,当然值得去研究。在anchor-free和anchor-based之间做文章,大佬亲自在知乎上做了评价
    在这里插入图片描述
    3、YOLO3+ASFF

    还是使用darknet作为主干网络,在yolov3上加入了ASFF策略。
    在这里插入图片描述
    上面列举出来的三个算法非常值得去研究一波

    q当然,如果你有时间,表格里面的算法都值得一看

    在做上面那个表格的时候,我发现了一个问题,最新开源的出来的复现代码大部分都是Pytorch的,剩下一小部分是TF的,根本没有其他了。如果官方给出的不是pytorch版本,也会马上有大佬用pytorch复现出来。

    然后我有点怀念当年的caffe了,于是我找到了这张图
    在这里插入图片描述
    在这里插入图片描述

    这个图标是根据在某一个具体的月份,开源的目标检测算法使用的深度学习框架的数量画出来的折线图。可以看到,pytorch逐渐壮大,FT貌似一直都很强大,caffe就没在这个统计者严重出现过,属于其它。但是可以肯定,在15年,16年两年,caffe还是占据了其它类别的半壁江山的。

    技术飞速发展的今天,唯一不变的也许就是变化了,拥抱变化才能拥抱未来!

    References

    [1] CBNet: https://arxiv.org/pdf/1909.03625v1.pdf
    [2] CBNet: https://github.com/PKUbahuangliuhe/CBNet
    [3] EfficientDet: https://arxiv.org/pdf/1911.09070v1.pdf
    [4] pytorch版: https://github.com/toandaominh1997/EfficientDet.Pytorch
    [5] TF版: https://github.com/xuannianz/EfficientDet
    [6] ATSS: https://arxiv.org/pdf/1912.02424v1.pdf
    [7] ATSS: https://github.com/sfzhang15/ATSS
    [8] TridentNet: https://arxiv.org/pdf/1901.01892v2.pdf
    [9] simpleDet: https://github.com/tusimple/simpledet
    [10] GCNet: https://arxiv.org/pdf/1904.11492v1.pdf
    [11] GCNet: https://github.com/xvjiarui/GCNet
    [12] FCOS: https://arxiv.org/pdf/1904.01355v5.pdf
    [13] FCOS: https://github.com/tianzhi0549/FCOS
    [14] M2Det: https://arxiv.org/pdf/1811.04533v3.pdf
    [15] M2Det: https://github.com/qijiezhao/M2Det
    [16] ASSF: https://arxiv.org/pdf/1911.09516v2.pdf
    [17] ASSF: https://github.com/ruinmessi/ASFF
    [18] pwc项目: https://github.com/zziz/pwc
    [19] 评价: https://www.zhihu.com/question/359595879/answer/927861326

    展开全文
  • 最新目标检测论文盘点与解读总结

    千次阅读 2019-08-31 08:19:04
    目标检测算法盘点 从RCNN到SSD,这应该是最全的一份目标检测算法盘点 目标检测算法在准确度(AP)和速度(speed)的对比: 论文中的知识点 评价指标AP(mAP) 最完整的检测模型评估指标mAP计算指南(附代码)_慕课...

    目标检测算法盘点


    从RCNN到SSD,这应该是最全的一份目标检测算法盘点

    目标检测算法在准确度(AP)和速度(speed)的对比:
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述


    论文中的知识点

    评价指标AP(mAP)

    • 最完整的检测模型评估指标mAP计算指南(附代码)_慕课手记:
    1. https://www.imooc.com/article/44040
    2. https://link.zhihu.com/?target=https%3A//github.com/rafaelpadilla/Object-Detection-Metrics%23create-the-ground-truth-files

    边框回归(Bounding Box Regression)

    IOU

    非极大值抑制(non maximum suppression)

    OHEM(Training Region-based Object Detectors with Online Hard Example Mining)

    论文地址:https://arxiv.org/pdf/1604.03540.pdf

    论文解读:

    RPN(Region Proposal Network)

    最新论文

    ICCV 2019 论文大盘点-目标检测

    CVPR 2019 论文大盘点—目标检测篇

    CVPR2018 目标检测(object detection)算法总览

    ECCV2018目标检测(object detection)算法总览

    超越YOLOv3!普林斯顿大学提出:CornerNet-Lite,基于关键点的目标检测算法,已开源!

    CornerNet-Lite算法原理实现


    one-stage detectors

    SSD(Single Shot MultiBox Detector)
    论文地址:https://arxiv.org/pdf/1512.02325.pdf

    论文解读:

    YOLO(You only look once)

    论文地址:

    代码地址:

    论文解读:

    YOLO算法原理详解

    YOLO原理与实现

    YOLO v2算法详解 - AI之路 - CSDN博客

    YOLOv2原理与实现(附YOLOv3)

    YOLO v3算法笔记 - AI之路 - CSDN博客

    YOLOv3: 训练自己的数据 - 点滴记录 - CSDN博客

    yolo系列之yolo v3【深度解析】

    目标检测之One-stage算法:YOLOv1-YOLOv3进化历程

    keras源码解读:

    探索 YOLO v3 源码 - 第1篇 训练

    探索 YOLO v3 实现细节 - 第2篇 模型

    探索 YOLO v3 实现细节 - 第3篇 网络

    探索 YOLO v3 实现细节 - 第4篇 数据和y_true

    探索 YOLO v3 实现细节 - 第5篇 Loss

    探索 YOLO v3 实现细节 - 第6篇 预测 (完结)

    RetinaNet(Focal Loss for Dense Object Detection)
    论文地址:https://arxiv.org/pdf/1708.02002.pdf

    论文解读:

    论文阅读: RetinaNet - Online Notes - CSDN博客

    Focal Loss - AI之路 - CSDN博客

    CornerNet
    陈泰红:CornerNet:目标检测算法新思路

    https://blog.csdn.net/u014380165/article/details/83032273

    CenterNet
    OLDPAN:扔掉anchor!真正的CenterNet——Objects as Points论文解读

    two-stage detectors

    R-CNN(Region-based Convolutional Neural Networks)
    论文地址:http://xxx.itp.ac.cn/pdf/1311.2524.pdf

    Fast R-CNN
    论文地址:http://xxx.itp.ac.cn/pdf/1504.08083.pdf

    Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)
    论文地址:http://xxx.itp.ac.cn/pdf/1506.01497.pdf

    论文解读:
    R-CNN论文原理

    R-CNN论文代码实现

    Object Detection and Classification using R-CNNs

    白裳:一文读懂Faster RCNN

    Mask-RCNN
    论文地址:http://xxx.itp.ac.cn/pdf/1703.06870.pdf

    论文解读:

    Mask-RCNN技术解析 - 跟随技术的脚步-linolzhang的专栏 - CSDN博客

    Mask RCNN笔记 - 生如蚁,美如神 - CSDN博客

    Mask RCNN算法原理实现

    Cascade RCNN

    TridentNet
    Naiyan Wang:TridentNet:处理目标检测中尺度变化新思路


    其他

    FPN(Feature Pyramid Networks for Object Detection)
    论文地址:http://xxx.itp.ac.cn/pdf/1612.03144.pdf

    论文解读:
    FPN(feature pyramid networks)算法讲解

    FCN(Fully Convolutional Networks for Semantic Segmentation)
    论文地址:https://arxiv.org/pdf/1411.4038.pdf

    论文解读:https://link.zhihu.com/?target=https%3A//www.cnblogs.com/gujianhan/p/6030639.html

    Rethinking ImageNet Pre-training - 何凯明大神的新作
    论文地址:https://arxiv.org/pdf/1811.08883.pdf

    展开全文
  • 目标检测(Object detection)是一种计算机视觉技术,旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。目标检测在视频监控、自动驾驶汽车、人体跟踪等领域得到了广泛的应用。在本文中,我们...
    4567ef6827f640599d657575819e7b42.png

    目标检测(Object detection)是一种计算机视觉技术,旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。

    目标检测在视频监控、自动驾驶汽车、人体跟踪等领域得到了广泛的应用。在本文中,我们将了解目标检测的基础知识,并回顾一些最常用的算法和一些全新的方法。

    目标检测的原理

    目标检测定位图像中目标的存在,并在该目标周围绘制一个边界框(bounding box)。这通常包括两个过程:预测目标的类型,然后在该目标周围绘制一个框。现在让我们来回顾一些用于目标检测的常见模型架构:

    • R-CNN
    • Fast R-CNN
    • Faster R-CNN
    • Mask R-CNN
    • SSD (Single Shot MultiBox Defender)
    • YOLO (You Only Look Once)
    • Objects as Points
    • Data Augmentation Strategies for Object Detection

    R-CNN 模型

    该技术结合了两种主要方法:使用一个高容量的卷积神经网络将候选区域(region-proposals)自底向上的传播,用来定位和分割目标;如果有标签的训练数据比较少,可以使用训练好的参数作为辅助,进行微调(fine tuning),能够得到非常好的识别效果提升。

    论文链接: https://arxiv.org/abs/1311.2524

    进行特定领域的微调,从而获得高性能的提升。由于将候选区域(region-proposals)与卷积神经网络相结合,论文的作者将该算法命名为R-CNN(Regions with CNN features)。

    585d0dbffbe7554a82910fe0c456646d.png

    该模型在对每张图片提取了约2000个自底向上的候选区域。然后,它使用一个大型CNN计算每个区域的特征。然后,利用专门针对类别数据的线性支持向量机(SVMs)对每个区域进行分类。该模型在PASCAL VOC 2010上的平均精度达到53.7%。

    该模型中的目标检测系统由三个模块组成。第一个负责生成类别无关的候选区域,这些区域定义了一个候选检测区域的集合。第二个模块是一个大型卷积神经网络,负责从每个区域提取固定长度的特征向量。第三个模块由一个指定类别的支持向量机组成。

    5d375ce5c61c085e0725ca77180c6c35.png

    该模型采用选择性搜索(selective search)方法来生成区域类别,根据颜色、纹理、形状和大小选择搜索对相似的区域进行分组。在特征提取方面,该模型使用CNN的一个Caffe实现版本对每个候选区域抽取一个4096维度的特征向量。将227×227 RGB图像通过5个卷积层和2个完全连接层进行前向传播,计算特征。论文中所解释的模型与之前在PASCAL VOC 2012的结果相比,取得了30%的相对改进。

    而R-CNN的一些缺点是:

    • 训练需要多阶段: 先用ConvNet进行微调,再用SVM进行分类,最后通过regression对 bounding box进行微调。
    • 训练空间喝时间成本大: 因为像VGG16这样的深度网络占用了大量的空间。
    • 目标检测慢: 因为其需要对每个目标候选进行前向计算。

    Fast R-CNN

    下面的论文中提出了一种名为Fast Region-based Convolutional Network(Fast R-CNN)目标检测方法。

    https://arxiv.org/abs/1504.08083

    它是用Python和c++使用Caffe实现的。该模型在PASCAL VOC 2012上的平均精度为66%,而R-CNN的平均精度为62%。

    3ad01f9cc85ddd1847ff23d61dd4cfb7.png

    与R-CNN相比,Fast R-CNN具有更高的平均精度、单阶段训练,训练更新所有网络层并且特征缓存不需要磁盘存储。

    在其架构中, Fast R-CNN接收图像以及一组目标候选作为输入。然后通过卷积层和池化层对图像进行处理,生成卷积特征映射。然后,通过针对每个推荐区域,ROI池化层从每个特征映射中提取固定大小的特征向量。

    然后将特征向量提供给完全连接层。然后这些分支成两个输出层。其中一个为多个目标类生成softmax概率估计,而另一个为每个目标类生成4个实数值。这4个数字表示每个目标的边界框的位置。

    Faster R-CNN

    论文链接: https://arxiv.org/abs/1506.01497

    论文提出了一种针对候选区域任务进行微调和针对目标检测进行微调的训练机制。

    24ad9ce1c4f5ab8b063bcb6f97bf7fe2.png

    Faster R-CNN模型由两个模块组成:负责提出区域的深度卷积网络和使用这些区域的Fast R-CNN探测器。候选区域网络(Region Proposal Network)以图像为输入,生成矩形目标候选的输出。每个矩形都有一个objectness score。

    9c5e12efe1beb7c0ba630e40e01b4c7a.png

    Mask R-CNN

    论文链接: https://arxiv.org/abs/1703.06870

    论文提出的模型是上述Faster R-CNN架构的扩展。它还可以用于人体姿态估计。

    802bd7e0498b2e5ad9fd44b6b1d3c8fd.png

    在该模型中,使用边界框和对每个像素点进行分类的语义分割对目标进行分类和定位。该模型通过在每个感兴趣区域(ROI)添加分割掩码(segmentation mask)的预测,扩展了Faster R-CNNR-CNN。Mask R-CNN产生两个输出:类标签和边界框。

    SSD: Single Shot MultiBox Detector

    论文链接: https://arxiv.org/abs/1512.02325

    论文提出了一种利用单个深度神经网络对图像中目标进行预测的模型。该网络使用应用于特征映射的小卷积滤波器为每个目标类别生成分数。

    35b22ffb092db24fd43a34742a709920.png

    这种方法使用了一个前馈卷积神经网络,针对那些方框里的目标类别实例,产生一个固定大小的边界框的集合和分数。增加了卷积特征层,允许多比例特征映射检测。在这个模型中,每个特征映射单元(feature map cell)都链接到一组默认的边界框(default box)。下图显示了SSD512在动物、车辆和家具上的性能。

    79e3db5d96d0304e9390971ba29e73a3.png

    You Only Look Once (YOLO)

    论文提出了一种基于神经网络的图像边界框和类概率预测方法。

    论文链接: https://arxiv.org/abs/1506.02640

    YOLO模型每秒实时处理45帧。YOLO将图像检测看作是一个回归问题,使得它的管道非常简单。因为这个简单的管道,它非常快。

    它可以实时处理流视频,延迟小于25秒。在训练过程中,YOLO可以看到整个图像,因此能够在目标检测中包含上下文。

    e8daf5c110b9d92373110f81fe75396c.png

    在YOLO中,每个边界框都由整个图像的特征来预测。每个边界框有5个预测:x, y, w, h,和置信度。(x, y)表示边界框的中心相对于网格单元格的边界。w和h是整个图像的预测宽度和高度。

    该模型作为卷积神经网络实现,并在PASCAL VOC检测数据集上进行了评价。网络的卷积层负责提取特征,全连接层负责预测坐标和输出概率。

    41fce443aef57b714c9a336b5c09bbde.png

    该模型的网络架构受到了用于图像分类的GoogLeNet模型的启发。该网络有24个卷积层和2个全连接层。该模型的主要挑战在于,它只能预测一个类,而且在鸟类等小目标上表现不佳。

    446365f757fd23b664fa4ca93bc8a96a.png

    该模型的平均精度达到52.7%,但有可能达到63.4%。

    ca412f9532a5d346007f76c199eb0ae9.png

    Objects as Points

    论文提出将目标建模为单个点。它使用关键点估计来找到中心点,并回归到其他目标属性。

    论文链接: https://arxiv.org/abs/1904.07850v2

    这些属性包括3D位置、姿态和尺寸。它使用了CenterNet,这是一种基于中心点的方法,比其他边界框探测器更快、更准确。

    80b87f41d30f84968053b21bdb79c98f.png

    目标大小和姿态等属性是由图像中心位置的特征回归得到的。该模型将图像输入卷积神经网络,生成热力图。这些热力图中的峰值表示图像中目标的中心。为了估计人体姿态,该模型检测关节点(2D joint)位置,并在中心点位置对其进行回归。

    在COCO上,该模型以每秒1.4帧的速度实现了45.1%的平均精度。下图显示了与其他研究论文的结果进行比较的结果。

    0ca13c3b34cb31d672f7583b29f0cc47.png

    Learning Data Augmentation Strategies for Object Detection

    数据增广包括通过旋转和调整大小等操作原始图像来创建新图像数据的过程。

    论文链接: https://arxiv.org/abs/1906.11172v1

    虽然这本身不是一个模型结构,但论文提出了可以应用于可以转移到其他目标检测数据集的目标检测数据集的变换的创建。转换通常在训练时应用。

    714a8077d3d9c47668e0dcdbdc5aca65.png

    该模型将增广策略定义为训练过程中随机选择的n个策略集合。该模型中应用的一些操作包括颜色变化、图像几何变化以及只变化bounding box annotations的像素内容。

    在COCO数据集上的实验表明,优化数据增广策略可以使检测精度提高到+2.3以上的平均精度。这使得单个推理模型的平均精度达到50.7。

    总结

    现在,我们应该对在各种上下文中进行目标检测的一些最常见的技术(以及一些最新的技术)有所了解。

    上面的论文/摘要也包含它们的代码实现的链接。希望能看到你在测试这些模型后得到的结果。

    展开全文
  • 本文分享的目标检测论文将同步推送到 github上,欢迎大家 star/fork:...目标检测论文 【1】Object Detection in 20 Years: A Survey 时间:2019年5月 作者:密歇根大学&北航&卡尔顿大学&a...
  • CVPR2017-最新目标检测相关

    千次阅读 2017-10-14 17:23:26
    其主要考虑三种检测器(Faster RCNN,R-FCN,SSD)作为元结构,三种CNN网络(VGG,Inception,ResNet)作为特征提取器,变化其他参数如图像分辨率、proposals数量等,研究目标检测系统准确率与速度的权衡关系。...
  • 选自arXiv作者:Abdullah Rashwan、Agastya Kalra、...将这样的架构加载到目标检测中,嗯,超越 SOTA 检测器不是梦。论文链接:https://arxiv.org/abs/1908.04646研究者在这篇论文中提出了 Matrix Net (xNet),它...
  • 谷歌最新目标检测器EfficientDet

    千次阅读 2020-04-12 17:22:30
    我们常常有一个概念,SSD 等单阶段目标检测器很快,但准确性比不上 Mask R-CNN 等两阶段目标检测器,尽管两阶段目标检测推断速度要慢许多。那么有没有一种兼顾两者的目标检测器?设计这样的检测器又会出现什么挑战?...
  • 点击我爱计算机视觉标星,更快获取CVML新技术Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更...
  • 本文系统地研究了用于目标检测的神经网络结构,并提出了一些优化措施来提高效率。首先,本文提出了一种加权双向特征金字塔网络(BiFPN),该网络可以轻松快速地进行多尺度特征融合。其次,提出了一种复合缩放方法,该...
  • 基于Data Augmentation+NAS-FPN 数据对于深度学习来说至关重要,而数据增强策略对于提升...此外由于目标检测数据的标记成本比图像分类更高,数据增强策略在有限数据的情况下除了能提高模型表现同时还能节省数据成本...
  • 这篇Paper加拿大滑铁卢大学最新推出的一篇目标检测新文。目前该论文仅放出了抢先版,完整论文还请各位稍安勿躁。 本文提出了一种称作Matrix Net(或xNet)的网络架构,这种架构现了目标检测网络对物体宽高比的...
  • 虽然人眼已经无能为力,但是谷歌最新目标检测模型可以识别!谷歌提出了一种目标检测的新方法Context R-CNN,简单地说,就是利用摄像头长时间的拍摄内容,推理出模糊画面里的目标。这种模型的性能优于单帧Faster R-...
  • Le机器之心编译什么检测器能够兼顾准确率和模型效率?如何才能实现?最近,谷歌大脑 Mingxing Tan、Ruoming Pang 和 Quoc V. Le 提出新架构 EfficientDet,结合 EfficientNet(同样来自该团队)和新提出的 BiFPN,...
  • Google最新提出的目标检测方法,注意:本文提出的BIFPN和EfficientDet,通过改进 FPN 中多尺度特征融合的结构和借鉴 EfficientNet 模型缩放方法,提出了一种模型可缩放且高效的目标检测算法 EfficientDet。...
  • 作者 | 周强来源 | 我爱计算机视觉Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,...
  • 【导读】美国马里兰大学、复旦大学和Gobasco人工智能实验室联合提出R-FCN-3000实时3000类目标检测框架,对R-FCN框架中的物体检测和分类进行解耦。本文对R-FCN体系结构进行修改,其中位置敏感滤波器在不同的目标类...
  • 虽然人眼已经无能为力,但是谷歌最新目标检测模型可以识别! 谷歌提出了一种目标检测的新方法Context R-CNN,简单地说,就是利用摄像头长时间的拍摄内容,推理出模糊画面里的目标。这种模型的性能优于单帧Faster ...
  • 什么检测器能够兼顾准确率和模型效率?如何才能实现?最近,谷歌大脑 Mingxing Tan、Ruoming Pang 和 Quoc V.... 在计算机视觉领域,模型效率... Le 等人系统研究了多种目标检测神经网络架构设计,提出了能够提升模型效
  • 图 3:KP-xNet 架构 目标检测交流群 关注最新最前沿的目标检测技术,欢迎加入专属交流群,扫码添加CV君拉你入群,(如已为CV君好友请直接私信) (请务必注明:检测) 喜欢在QQ交流的童鞋,可以加52CV官方QQ群:...
  • By Charlotte77前言:Paddle 1.5版本发布了PaddleDetection目标检测库,覆盖了主流的检测算法,大家可以体验一下~7.14下午13:30在上海百度大厦会举办AI快车道四期-目标检测技术分享,我会给大家分享目标检测的常见...
  • 目标检测也能用神经架构搜索,这是一个自动搜索的特征金字塔网络。 神经架构搜索已经在图像识别上展现出很强的能力,不论是可微架构搜索的速度,还是基于强化学习搜索的准确度,很多时候自动架构搜索已经超越了我们...
  • 目标检测(一)——目标检测综述(持续更新中)

    万次阅读 多人点赞 2018-05-09 09:56:09
    目标检测 目标检测要解决的核心问题 目标检测最新进展 目标检测应用
  • 目标检测最新综述

    2020-07-14 11:17:01
    目标检测是计算机视觉领域基础研究,对于计算机视觉中其它的任务通常会依赖于目标检测任务的结果进行后续的处理,比如目标跟踪等。 目标检测是在图片中对数目是可变的目标进行分类和定位。对于目标检测而言,可能存在...
  • 最新目标检测的方法I will start with a short introduction of different approaches to object detection. After both traditional and newer approaches are presented, you can read about the most important...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,018
精华内容 407
关键字:

最新目标检测