精华内容
下载资源
问答
  • 最新目标检测论文

    千次阅读 2019-12-12 09:35:15
    【1】多方向目标检测:水平边界框上的滑动顶点 【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测 【3】基于PSNet和边框回归的弱监督目标检测(WSOD) 【4】带有可见IoU和Box Sign预测器的遮挡性行人检测 ...

    目录

    【1】多方向目标检测:水平边界框上的滑动顶点

    【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

    【3】基于PSNet和边框回归的弱监督目标检测(WSOD)

    【4】带有可见IoU和Box Sign预测器的遮挡性行人检测

    【5】CSPNet:可以增强CNN学习能力的新型Backbone

    【6】ReBiF:残差双融合特征金字塔网络,用于精确的Single-shot目标检测

    【7】目标检测的性能上界讨论

    【8】DIoU Loss:更快更好地学习边界框回归

    【9】CoAE:用于One-Shot目标检测的共同注意和共同激励

    【10】SAPD:Soft Anchor-Point目标检测

    【11】MMOD:基于混合模型的目标检测边界框密度估计

    【12】IENet:方向性航空目标检测的One Stage Anchor Free检测器

    【13】MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

    【14】IPG-Net:用于目标检测的图像金字塔引导网络

    【15】MAL:用于目标检测的多Anchor学习

    【16】ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择



    1】多方向目标检测:水平边界框上的滑动顶点

    《Gliding vertex on the horizontal bounding box for multi-oriented object detection》

    时间:20191123

    作者团队:华科(白翔组)&武大&上交

    链接:https://arxiv.org/abs/1911.09358

    注:本论文性能优于CAD-Net、R2CNN++,在DOAT上53.49mAP/10.0FPS!表现SOTA!

     

    网络结构

     

     


    【2】SM-NAS:结构到模块的神经体系结构搜索以进行目标检测

    《SM-NAS: Structural-to-Modular Neural Architecture Search for Object Detection》

    时间:20191125(AAAI 2020)

    作者团队:华为诺亚&中山大学

    链接:https://arxiv.org/abs/1911.09929

    注:又一篇用NAS做目标检测的论文,在COCO上可达42.8mAP/20FPS!最高可达45.9mAP,优于同类的NAS-FPN和DetNAS

     

     

    SM-NAS Pipeline

     

     


    【3】基于PSNet和边框回归的弱监督目标检测(WSOD)

    《WSOD with PSNet and Box Regression》

    时间:20191127

    作者团队:清华大学

    链接:https://arxiv.org/abs/1911.11512

    注:性能优于WSRPN、PCL等弱监督目标检测方法,表现SOTA!

     

    WSOD 网络结构

     


    【4】带有可见IoU和Box Sign预测器的遮挡性行人检测

    Occluded Pedestrian Detection with Visible IoU and Box Sign Predictor》

    时间:20191127

    作者团队:清华大学

    链接:https://arxiv.org/abs/1911.11449

    注:性能优于OR-CNN等网络

     

    网络结构

     

     


    【5】CSPNet:可以增强CNN学习能力的新型Backbone

    《CSPNet: A New Backbone that can Enhance Learning Capability of CNN》

    时间:20191128

    作者团队:中央研究院資訊科學研究所&台湾交通大学

    链接:https://arxiv.org/abs/1911.11929

    https://github.com/WongKinYiu/CrossStagePartialNetworks

    注:很棒的backbone,在检测任务上性能优于YOLOv3-tiny,CSPPeleeNet在Jetson TX2速度高达41FPS!现已开源

     

     


    【6】ReBiF:残差双融合特征金字塔网络,用于精确的Single-shot目标检测

    《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》

    时间:20191128

    作者团队:台湾交通大学&阿联酋大学

    链接:https://arxiv.org/abs/1911.12051

    注:ReBiF在mAP和FPS上都优于YOLOv3和RFBNet等网络

     

    Residual bi-fusion feature pyramid network 

     

     


    【7目标检测的性能上界讨论

    《Empirical Upper-bound in Object Detection and More》

    时间:20191128

    作者团队:西弗吉尼亚大学&MarkableAI

    链接:https://arxiv.org/abs/1911.12451

    注:在作者的计算方式下,PASCAL VOC (test2007) 的上界可以达到 91.6%,COCO (val2017) 可以达到 78.2%, OpenImages V4 (val) 可以达到 58.9%,它们的上界离现在所能达到的最佳的性能仍有很大的差距

    解读:目标检测的性能上界讨论

     

     


    【8】DIoU Loss:更快更好地学习边界框回归

    《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

    时间:20191129(AAAI 2020)

    作者团队:天津大学&中国人民公安大学

    链接:https://arxiv.org/abs/1911.08287

    注:DIoU Loss对YOLOv3、SSD、Faster R-CNN都有明显涨点,现已开源!

    解读:DIoU YOLOv3:更加稳定有效的目标框回归损失

     

     


    【9】CoAE:用于One-Shot目标检测的共同注意和共同激励

    《One-Shot Object Detection with Co-Attention and Co-Excitation》

    时间:20191202(NeurIPS 2019)

    作者团队:国立清华大学&中央研究院等

    链接:https://arxiv.org/abs/1911.12529

    代码:https://github.com/timy90022/One-Shot-Object-Detection

     

    网络结构

     


    【10】SAPD:Soft Anchor-Point目标检测

    《Soft Anchor-Point Object Detection》

    时间:20191202

    作者团队:卡耐基梅隆大学(CMU)

    链接:https://arxiv.org/abs/1911.12448

    注:SAPD:目前最强Anchor-free目标检测网络,性能高达47.4mAP/4.5FPS!性能秒杀FreeAnchor、CenterNet、FSAF、FCOS和FoveaBox等

     

    COCO test-dev Speed vs mAP

     

    Training strategy

     

     


    【11MMOD:基于混合模型的目标检测边界框密度估计

    《Mixture-Model-based Bounding Box Density Estimation for Object Detection》

    时间:20191202

    作者团队:首尔大学

    链接:https://arxiv.org/abs/1911.12721

    注:MMOD性能可达38.7 mAP/26FPS!但还是不如ASFF,代码即将开源

     

    MMOD 网络结构

     


    【12】IENet:方向性航空目标检测的One Stage Anchor Free检测器

    《IENet: Interacting Embranchment One Stage Anchor Free Detector for Orientation Aerial Object Detection》

    时间:20191203

    作者团队:哈尔滨工程大学

    链接:https://arxiv.org/abs/1912.00969

    注:IENet用于旋转性边界框(OBB)的One Stage Anchor Free目标检测新网络

     

    IENet Head

     

     


    【13】MnasFPN:用于移动设备上目标检测的延迟感知的金字塔体系结构

    MnasFPN: Learning Latency-aware Pyramid Architecture for Object Detection on Mobile Devices》

    时间:20191204

    作者团队:谷歌AI&谷歌大脑(Quoc V. Le大佬)

    链接:https://arxiv.org/abs/1912.01106

    注:MnasFPN无论mAP还是FPS均优于MobileNetV3+SSDLite和NAS-FPNLite

     

    IMnasFPN 网络结构

     


    【14IPG-Net:用于目标检测的图像金字塔引导网络

    《IPG-Net: Image Pyramid Guidance Network for Object Detection》

    时间:20191205

    作者团队:北京理工大学&三星

    链接:https://arxiv.org/abs/1912.00632

    注:在COCO上可达45.7mAP,在VOC上可达85.9,性能优于CenterNet、FSAF和SNIPER等网络

     

    Model Backbone

     

     


    15】MAL:用于目标检测的多Anchor学习

    《Multiple Anchor Learning for Visual Object Detection》

    时间:20191206

    作者团队:CMU&中科院等

    链接:https://arxiv.org/abs/1912.02252

    注:在single/multi-scale下,one-stage系列的MAL性能分别可达45.9/47.0 mAP!优于FreeAnchor、CenterNet等网络

     

    MAL 思想

    MAL 网络结构

     

     


    16】ATSS:缩小Anchor-free和Anchor-based的性能差距:通过自适应训练样本选择

    《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》

    时间:20191206

    作者团队:中科院&国科大&北邮等

    链接:https://arxiv.org/abs/1912.02424

    代码:https://github.com/sfzhang15/ATSS

    注:ATSS在COCO上,single/multi scale分别可达47.7和50.7mAP!很强势,现已开源!

     

     

    为了方便下载,我已经将上述论文打包,在 CVer公众号 后台回复:20191209 即可获得打包链接。

    展开全文
  • 最新目标检测论文盘点与解读总结

    千次阅读 2019-08-31 08:19:04
    目标检测算法盘点 从RCNN到SSD,这应该是最全的一份目标检测算法盘点 目标检测算法在准确度(AP)和速度(speed)的对比: 论文中的知识点 评价指标AP(mAP) 最完整的检测模型评估指标mAP计算指南(附代码)_慕课...

    目标检测算法盘点


    从RCNN到SSD,这应该是最全的一份目标检测算法盘点

    目标检测算法在准确度(AP)和速度(speed)的对比:
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述


    论文中的知识点

    评价指标AP(mAP)

    • 最完整的检测模型评估指标mAP计算指南(附代码)_慕课手记:
    1. https://www.imooc.com/article/44040
    2. https://link.zhihu.com/?target=https%3A//github.com/rafaelpadilla/Object-Detection-Metrics%23create-the-ground-truth-files

    边框回归(Bounding Box Regression)

    IOU

    非极大值抑制(non maximum suppression)

    OHEM(Training Region-based Object Detectors with Online Hard Example Mining)

    论文地址:https://arxiv.org/pdf/1604.03540.pdf

    论文解读:

    RPN(Region Proposal Network)

    最新论文

    ICCV 2019 论文大盘点-目标检测

    CVPR 2019 论文大盘点—目标检测篇

    CVPR2018 目标检测(object detection)算法总览

    ECCV2018目标检测(object detection)算法总览

    超越YOLOv3!普林斯顿大学提出:CornerNet-Lite,基于关键点的目标检测算法,已开源!

    CornerNet-Lite算法原理实现


    one-stage detectors

    SSD(Single Shot MultiBox Detector)
    论文地址:https://arxiv.org/pdf/1512.02325.pdf

    论文解读:

    YOLO(You only look once)

    论文地址:

    代码地址:

    论文解读:

    YOLO算法原理详解

    YOLO原理与实现

    YOLO v2算法详解 - AI之路 - CSDN博客

    YOLOv2原理与实现(附YOLOv3)

    YOLO v3算法笔记 - AI之路 - CSDN博客

    YOLOv3: 训练自己的数据 - 点滴记录 - CSDN博客

    yolo系列之yolo v3【深度解析】

    目标检测之One-stage算法:YOLOv1-YOLOv3进化历程

    keras源码解读:

    探索 YOLO v3 源码 - 第1篇 训练

    探索 YOLO v3 实现细节 - 第2篇 模型

    探索 YOLO v3 实现细节 - 第3篇 网络

    探索 YOLO v3 实现细节 - 第4篇 数据和y_true

    探索 YOLO v3 实现细节 - 第5篇 Loss

    探索 YOLO v3 实现细节 - 第6篇 预测 (完结)

    RetinaNet(Focal Loss for Dense Object Detection)
    论文地址:https://arxiv.org/pdf/1708.02002.pdf

    论文解读:

    论文阅读: RetinaNet - Online Notes - CSDN博客

    Focal Loss - AI之路 - CSDN博客

    CornerNet
    陈泰红:CornerNet:目标检测算法新思路

    https://blog.csdn.net/u014380165/article/details/83032273

    CenterNet
    OLDPAN:扔掉anchor!真正的CenterNet——Objects as Points论文解读

    two-stage detectors

    R-CNN(Region-based Convolutional Neural Networks)
    论文地址:http://xxx.itp.ac.cn/pdf/1311.2524.pdf

    Fast R-CNN
    论文地址:http://xxx.itp.ac.cn/pdf/1504.08083.pdf

    Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)
    论文地址:http://xxx.itp.ac.cn/pdf/1506.01497.pdf

    论文解读:
    R-CNN论文原理

    R-CNN论文代码实现

    Object Detection and Classification using R-CNNs

    白裳:一文读懂Faster RCNN

    Mask-RCNN
    论文地址:http://xxx.itp.ac.cn/pdf/1703.06870.pdf

    论文解读:

    Mask-RCNN技术解析 - 跟随技术的脚步-linolzhang的专栏 - CSDN博客

    Mask RCNN笔记 - 生如蚁,美如神 - CSDN博客

    Mask RCNN算法原理实现

    Cascade RCNN

    TridentNet
    Naiyan Wang:TridentNet:处理目标检测中尺度变化新思路


    其他

    FPN(Feature Pyramid Networks for Object Detection)
    论文地址:http://xxx.itp.ac.cn/pdf/1612.03144.pdf

    论文解读:
    FPN(feature pyramid networks)算法讲解

    FCN(Fully Convolutional Networks for Semantic Segmentation)
    论文地址:https://arxiv.org/pdf/1411.4038.pdf

    论文解读:https://link.zhihu.com/?target=https%3A//www.cnblogs.com/gujianhan/p/6030639.html

    Rethinking ImageNet Pre-training - 何凯明大神的新作
    论文地址:https://arxiv.org/pdf/1811.08883.pdf

    展开全文
  • 基于Data Augmentation+NAS-FPN 数据对于深度学习来说至关重要,而数据增强策略对于提升...此外由于目标检测数据的标记成本比图像分类更高,数据增强策略在有限数据的情况下除了能提高模型表现同时还能节省数据成本...

    基于Data Augmentation+NAS-FPN

    数据对于深度学习来说至关重要,而数据增强策略对于提升训练样本数据量、改善模型稳定性和鲁棒性,提高对于真实世界的适应性和泛化性具有重要的作用。

    虽然在图像分类中数据增强有着广泛的使用,但将数据增强用于目标检测的系统性研究还较少。此外由于目标检测数据的标记成本比图像分类更高,数据增强策略在有限数据的情况下除了能提高模型表现同时还能节省数据成本。

    来自谷歌的研究人员针对目标检测任务提出了一种基于学习的数据增强策略,通过在训练数据上进行增强策略搜索和验证集的性能测试来寻找最优的数据增强方法,有效地提升了模型的表现,同时学习到的数据增强策略对于不同数据、基础网络和模型架构都具有效的泛化性和适应性。值得一提的是,文章的作者来自提出著名的神经架构搜索及其相关方法的研究团队。

    通用高效的目标检测数据增强策略

    数据增强广泛是机器学习中常用的数据处理手段,不同的数据集通常会利用针对性的数据处理手段来处理。例如MNIST大多使用尺度、旋转和平移的操作,也有加入颜色、噪声等变换,而针对自然图像,更多采用进行和随机裁剪的方法来进行。还包括以对象为中心的裁剪、针对图像片的增减和变换等,但这些方法大都针对特定的数据来处理并集中于图像分类问题。

    但由于数据标记的成本很高,数据增强对于目标检测有着更为重要的实际意义。由于目标检测的复杂性使得有效的数据增强策略难以获取。为了得到有效的数据增强策略并应用于目标检测任务中,研究人员希望利用算法搜索到一套新颖的检测数据增强策略,并能够有效地应用于不同的数据集、数据尺寸、基础网络和检测架构上,有效提升算法的性能

    基于离散优化增强策略搜索

    对于目标检测来说通常需要考虑目标框(bounding box, bbox)与变换后图像连续性,研究人员针对bbox内部的图像提出了一系列变换,同时探索了图像整体变化时如何调整bbox的策略。通过定义一系列子策略集和多个图像操作变换,最终将这一问题归结为离散空间中的优化问题来进行求解

    首先研究人员将图像增强策略定义为K个子策略的无序集合,在训练时从中随机选取策略对图像进行数据增强。而其中每一个策略则包含了N个图先变换,这些图像变换将依次作用于被增强的数据,研究的目的在于从中搜索出最有效的策略。

    这些变量共同定义了一个离散优化问题的搜索空间,针对目标检测任务的数据增强,研究人员将设置K=5,N=2。其中搜索空间总共包含了五个子策略,每个子策略包含了2种图像操作,而每个操作同时包含了这个操作对应的概率p和操作的具体数值m两个参数。这里的概率定义的增强策略在数据样本上进行的随机性,而m则定义了增强的幅度。

    具体来说,研究人员从实验中总结了22中有利于检测的数据增强算法,分别是颜色操作、几何变换和bbox操作。

    颜色操作:针对图像的颜色通道进行操作,包括直方图均衡、对比图调整和亮度调整等;几何操作:对于图像进行几何变换,包括位置变换,bbox的大小和位置、旋转、剪切变换等,需要指出的是在进行几何变换时需要对bbox进行调整;

    bbox操作:仅针对bbox内部的内容进行操作,而不改变外部的背景,可以综合使用前面的颜色和几何变换。

    在使用过程中,研究人员将每种操作的幅度都归一化到[0,10],对应L=6等间距的空间,对应概率也是一个M=6的等间距空间,这一取值平衡了强化学习算法计算的可追溯性和学习能力。

    针对这样的数值定义可以计算出每个策略需要搜索的空间包含(22LM)^2,而五个策略对应的空间为(22*6*6)^10~9.6*10^18如此大的搜索空间一定需要高效的方法才能进行有效的处理。

    在这篇文章中研究人员采用了基于RNN输出空间表示离散值,同时利用RL算法来更新模型权重。其中PPO(proximal policy optimization)被用于搜索策略。RNN每次需要进行30步来预测输出,这来自于5个子策略,每个子策略两个操作,每个操作包含概率、幅度和操作本身三个参数,其乘积即为30。

    在训练过程中,研究人员为了减小整体计算量从COCO数据集中选取了5K图像来训练增强算法。算法利用了ResNet-50作为主干网络、RetinaNet检测器来从零开始构建目标检测器,并利用在7392张COCO子验证集上的mAP作为奖励信号来更新控制器迭代搜索空间参数。

    这一算法需要消耗巨大的算力,在400个TPUs上训练了48个小时完成了20K增强策略的训练,最终得到的数据增强策略使得目标检测得到了较大的提升,其中最好的几个策略能够广泛应用到不同的数据集、大小和架构上去。

    结果

    训练后的结果显示,算法通过验证集的测试得到最多的图像增强操作是旋转操作,同时图像均衡和bbox在Y方向上的平移操作也是排名较为靠前的操作。研究人员首先将学习到的策略进行了整体评测,在Res-Net和RetinaNet检测器上都实现了较大幅度的提升:

    为了探索哪些操作对于目标检测算法带来的优势较大,研究人员将增强操作拆解成了颜色、几何与bbox相关操作,并分别测试了对于基准网络的提升,下表显示了不同操作叠加下对于目标检测性能的影响。

    此外研究人员还探索了不同模型下数据增强策略的有效性,并通过增加图像分辨率和锚的数量实现了50.7mAP!

    同时也在不同的数据上验证了这一算法的有效性。研究人员还探索了用于训练数据增强策略数据集的大小对于目标检测算法提升的效果,虽然随着训练数据的增加,数据增强的效果逐渐减弱。

    但这种方法针对小数据集小物体的检测却具有明显的效果。同时对于较为困难的AP75任务也有较好的表现,这意味着数据增强策略帮助算法学习到了bbox位置出更细粒度的空间细节特征,这也同时改善了小物体的检测性能。下表中mAPs显示了小物体检测提升的情况。

    在改进模型正则化方面,研究人员发现了训练数据大的情况下损失会提升,同时随着数据量的增加L2会变小,数据增强策略进一步减少了权重的衰减。研究人员发现在使用有效数据增强策略的同时,就不需要正则化技术来帮助网络更好的训练了。

     


    论文地址:https://arxiv.org/pdf/1906.11172.pdf

    代码:

    官方版:https://github.com/tensorflow/tpu/tree/master/models/official/detection来自

    复现版:https://github.com/TuSimple/simpledet来自

    内容转自:

    http://www.360kuai.com/pc/99ab85b25e77a27ca?cota=4&kuai_so=1&sign=360_57c3bbd1&refer_scene=so_1

    展开全文
  • 目标检测也能用神经架构搜索,这是一个自动搜索的特征金字塔网络。 神经架构搜索已经在图像识别上展现出很强的能力,不论是可微架构搜索的速度,还是基于强化学习搜索的准确度,很多时候自动架构搜索已经超越了我们...

    目标检测也能用神经架构搜索,这是一个自动搜索的特征金字塔网络。

    神经架构搜索已经在图像识别上展现出很强的能力,不论是可微架构搜索的速度,还是基于强化学习搜索的准确度,很多时候自动架构搜索已经超越了我们手动设计的版本。与此同时,学习视觉的特征表示是计算机视觉中的一个基本问题。不论是图像分类还是目标检测,抽取图像特征才是最首要的。

    在过去几年里,用于图像分类和目标检测的深度卷积网络在架构搜索方面取得了很大进展。与预测图像类别概率的图像分类不同,目标检测在大范围的尺度和位置上检测和定位多个目标时存在自身的挑战。为了解决这个问题,很多现代目标检测器普遍使用金字塔特征表示,它表示具有多尺度特征层的图像。

    在这篇论文中,谷歌大脑的 Quoc V. Le 等研究者提出了一种新的架构搜索方法 NAS-FPN。他们希望借助神经架构搜索的优势,并学习更好的目标检测特征金字塔网络架构。目前 NAS-FPN 实现了优于当前最佳目标检测模型的准确率和延迟权衡

    目标检测中的神经架构搜索

    特征金字塔网络(FPN)是目标检测中生成金字塔形状特征表示的代表性模型架构之一。它采用通常为图像分类设计的骨干模型,然后通过自上而下和横向连接,并组合不同的特征层来构建特征金字塔。FPN 取代了检测器(如 Faster R-CNN)中的特征提取器,并生成更高质量的金字塔特征图。

    图注:特征金字塔网络,选自 arXiv: 1612.03144。

    FPN 由自下而上和自上而下路径组成。其中自下而上的路径是用于提取特征的常用卷积网络,空间分辨率自下而上地下降。当空间分辨率下降,且检测到更高层的结构时,每层的语义值增加。

    设计特征金字塔架构的挑战在于其巨大的设计空间。组合不同尺度的可能连接数量随着网络层数的增加呈指数级增长。最近,神经架构搜索算法在巨大的搜索空间中有效地发现了用于图像分类的高性能架构。为了实现这个领域的结果,Quoc V. Le 等研究者提出生成金字塔表示的可扩展架构搜索空间。

    NAS-FPN:一种灵活的目标检测新方法

    本文的主要贡献是设计搜索空间,覆盖所有可能的跨尺度连接,已生成多尺度特征表示。在搜索过程中,研究者的目标是发现具有相同输入和输出特征级别并且可以被重复应用的微粒架构。模块化搜索空间使得搜索金字塔架构变得易于管理。模块化金字塔架构的另一个好处是可以随时检测目标(即「early exit」),虽然这种「early exit」方法已经被尝试过,但手动设计这种架构依旧相当困难。

    研究者构建的架构,即 NAS-FPN,在构建目标检测架构方面具有很大的灵活性。NAS-FPN 与各种骨干模型配合得很好,如 MobileNet、ResNet、AmoebaNet。它为移动端模型和高准确率模型在速度和准确率方面提供了更好的权衡。

    在相同的推理时间下,与 RetinaNet 框架中的 MobileNetV2 骨干模型相结合,它的性能超过当前最佳的移动检测模型(与 MobilenetV2 结合的 SSDLite)2 个 AP。与强大的 AmoebaNet-D 骨干模型结合,NASFPN 在单个测试规模中达到了 48.3 的 AP 单模型准确率。其检测准确率超过了 Mask RCNN,同时使用的推理时间更少。几种模型的具体结果如图 1 所示。

    图 1:移动设备上准确型模型(上)和快速型模型(下)的平均精度与推断时间关系。绿色折线是 NASFPN 与 RetinaNet 相结合的结果。详情请看图 9。

    论文:NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

    论文地址:https://arxiv.org/pdf/1904.07392.pdf

    摘要:当前最先进的目标检测卷积架构都是人工设计的。在这项工作中,我们的目标是学习更好的目标检测特征金字塔网络架构。我们采用了神经架构搜索,在一个包含所有跨尺度连接的新的可扩展搜索空间中发现了一个新的特征金字塔架构。这个名为 NAS-FPN 的架构包含自上而下和自下而上的连接,以融合各种尺度的特征。NAS-FPN 与 RetinaNet 框架中的若干骨干模型相结合,实现了优于当前最佳目标检测模型的准确率和延迟权衡。该架构将移动检测准确率提高了 2 AP,优于 [32] 中的当前最佳模型——与 MobileNetV2 相结合的 SSDLite,达到了 48.3 AP,超越了 Mask R-CNN [10] 的检测准确率,且计算时间更少。

    方法

    本文中的方法基于 RetinaNet 框架 [23],因为该框架简单、高效。RetinaNet 框架有两个主要的组成部分:一个骨架网络(通常是当前最优的图像分类网络)和一个特征金字塔网络(FPN)。本文算法的目标是为 RetinaNet 框架发现更好的 FPN 架构。图 2 所示为 RetinaNet 架构。

    图 2:带有 NAS-FPN 的 RetinaNet。在本文中,特征金字塔网络将由神经架构搜索算法来搜索。骨干网络和用于类和框预测的子网络遵循 RetinaNet [23] 中的原始设计。FPN 的架构可以堆叠多次,以获得更高的准确率。

    为了找到更好的 FPN,研究者利用 Quoc Le 等人在「Neural architecture search with reinforcement learning」中提出的神经架构搜索(NAS)框架。NAS 利用强化学习训练控制器在给定的搜索空间中选择最优的模型架构。控制器利用子模型在搜索空间中的准确度作为奖励信号来更新其参数。因此,通过反复试验,控制器逐渐学会了如何生成更好的架构。

    研究者还为 FPN 设计了一个搜索空间来生成特征金字塔表征。为了实现 FPN 的可扩展性,研究者强制 FPN 在搜索过程中重复 N 次,然后连接到一个大型架构中。他们将这一特征金字塔架构命名为 NAS-FPN。

    实验

    这一部分描述了学习一个 RNN 控制器来发现 NAS-FPN 架构的神经架构搜索实验。然后,研究者证明了他们发现的 NAS-FPN 在不同的骨干模型和图像大小下都能很好地工作。在金字塔网络中,通过改变叠加层数和特征维数,可以很容易地调整 NAS-FPN 的容量。此外,作者还在实验中展示了如何构建准确、快速的架构。

    图 5:左:强化学习训练的奖励。计算奖励的方法为在代理任务上采样架构的 AP。右:采样的独特架构数与架构总数。随着控制器逐渐收敛,控制器会采样到越来越多的相同架构。

    图 6:5 个输入层(黄色)和 5 个输出特征层(蓝色)的 NAS-FPN 中发现的 7-merging-cell 金字塔网络架构。GP:全局池化;R-C-B:ReLU-Conv-BatchNorm。

    图 7:NAS-FPN 的架构图。每个点代表一个特征层,同一行的特征层具有相同的分辨率,分辨率由下往上递减。箭头表示内层之间的连接,该图的结构是输入层位于左侧。金字塔网络的输入用绿色圆圈标记,输出用红色圆圈标记。(a)基线 FPN 架构。(b~f)在 RNN 控制器的训练中通过神经架构搜索发现的 7-cell NAS-FPN 架构。(f)实验中最后收敛得出的 NAS-FPN。

    图 8:NAS-FPN 的模型容量。(a)叠加金字塔网络,(b)改变骨干架构,(c)增加金字塔网络中的特征维度。所有的模型都是在 640x640 的图像大小上训练/测试的。标记上方的数字表示在 NAS-FPN 中金字塔网络的数量。

    图 9:检测准确率和推理时间的折衷(左)、浮点数(中)、参数(右)。(a)研究者将其与其他高准确率模型进行了对比。所有模型的推理时间都是在一个搭载 P100 GPU 的设备上计算出来的。绿色折线显示的是拥有不同骨干架构的 NAS-FPN 结果。该标记上的数字表示在 NAS-FPN 中金字塔网络的重复次数。在每个数据点旁边都表明了 NAS-FPN/FPN 的特征维数和输入图像大小。(b)研究者将自己的模型与其他快速模型进行了对比,其中所有模型的输入图像大小为 320x320,推理时间是在 Pixel 1 CPU 上计算的。本文中的模型是用 MobileNetV2 的轻型模型训练的。

    表 1:NAS-FPN 和其他当前最优检测器在 COCO 测试数据集上的性能表现。

    图 10:特征维数为 256 或 384 的 NAS-FPN 在训练时有无 DropBlock (DB) 的性能对比。模型和 ResNet-50 骨干模型在大小为 1024x1024 的图像上训练。当我们在金字塔网络中增加特征维数时,添加 DropBlock 变得更重要。

    代码实现:

    在simpledet上复现了下nasfpn的模型结果,代码见SimpleDet。当然只是用了paper search得到的结构,没有复现seach的过程。

    结果基本与paper中resnet50,640x640输入的结果一致,retinanet是37.4,nasfpn是40.1,不同之处在于focal loss的gamma设的是2,paper中是1.5。实验中发现gamma=2会比1.5稍好一点,所以结果也比paper略高一些。

    欢迎大家试用SimpleDet

     

    转自:

    谷歌大脑提出NAS-FPN:一种学会自动架构搜索的特征金字塔网络:http://www.360kuai.com/pc/9f5779082a933626a?cota=4&sign=360_57c3bbd1&refer_scene=so_1

    如何评价Google Brain最新检测论文NAS-FPN?:https://www.zhihu.com/question/320662763/answer/705852521

    展开全文
  • CVPR2018上关于目标检测(object detection)的论文比去年要多很多,而且大部分都有亮点。从其中挑了几篇非常有意思的文章,特来分享,每篇文章都有详细的博客笔记,可以点击链接阅读。 1、Cascaded RCNN  论文:...
  • 本文分享的目标检测论文将同步推送到 github上,欢迎大家 star/fork,链接地址:...本文分享的目标检测论文既含刷新COCO mAP记录的目标检测论文,也有追求 mAP 和 FPS trade-off的论文 论文发布时间段:2019...
  • object-detection 文章目录object-detectionSurveyPapers&CodesR-CNNFast R-CNNFaster R-CNNMask R-CNNLight-Head R-CNNCascade R-CNNSPP-NetYOLOYOLOv2YOLOv3YOLTSSDDSSDFSSDESSDMDSSDPeleeFire SSDR-...
  • ECCV2018目标检测论文

    2018-10-19 10:16:56
    ECCV2018最新目标检测(物体检测)论文全集,是研究计算机视觉深度学习必看论文
  • CVPR2018目标检测论文

    2018-08-29 16:54:13
    CVPR2018目标检测 object detection 相关论文最新论文
  • 今天有群友反馈弱监督目标检测论文少,收集了部分最新的 cap2det谷歌结合文字信息进行弱监督检测.pdf ICCV2019一篇 instance-aware弱监督目标检测CVPR2020 清华大学弱监督2019 商汤AAAI2020 中科院利用弱监督目标...
  • 前言目标检测算法盘点机器之心:从RCNN到SSD,这应该是最全的一份目标检测算法盘点​zhuanlan.zhihu.com先上三张图直观感受一下目标检测算法在准确度(AP)和速度(speed)的对比1.论文经常提及的几个知识点评价指标...
  • 2016CVPR目标检测论文简介

    千次阅读 2016-10-24 13:09:39
    3)定位准确性CVPR2016专题:CVPR/ICCV目标检测最新论文2016年的CVPR目标检测(这里讨论的是2D的目标检测)的方法主要是 基于CNN的框架,代表性的工作有ResNet[1](Kaiming He等)、 YOLO[5](Joseph Redmon等)、...
  • 几乎所有最新的物体检测器(例如RetinaNet,SSD,YOLOv3和Faster R-CNN)都依赖于预定义的锚框。 相反,我们建议的探测器FCOS不含锚盒,也不含建议盒。 通过消除预先定义的锚定框集,FCOS完全避免了与锚定框相关的...
  • 目标检测、深度估计、无人驾驶 papers最新论文算法笔记 目标检测系列 目标检测 | Deep MANTA 算法笔记 目标检测 | DetNet算法笔记 目标检测 | Ladder-style DenseNet 算法笔记 DL Net | Capsual Net 算法学习笔记 ...
  • 3D目标检测论文汇总

    2020-02-18 12:05:48
    从经典到最新 1. 将点云投影为图片后做用深度学习做检测 [4] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3d lidar usingfully convolutional network,” inProceedings of Robotics: Science and...
  • Matrix Nets(xNets)是一种用于目标检测的新型深度架构。xNets仅需要其它模型一半的参数量,就可以在MS COCO上实现了47.8%的mAP,高于任何其他单步检测。另外,xNets的训练速度是目前第二好的架构的3倍。 论文介绍...
  • 论文推荐】最新九篇目标检测相关论文—混合区域嵌入、FSSD、尺度不敏感、图像篡改检测、对抗实例、条件生成模型 - 云+社区 - 腾讯云
  • https://blog.csdn.net/e01528/article/details/79730249 https://github.com/amusi/awesome-object-detection 最新进展:https://zhuanlan.zhihu.com/p/46595846
  • 平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,...
  • 整理了最新最成熟的计算机视觉之目标检测论文,如R-CNN,Fast-R-CNN,Faster-R-CNN,SSD,YOLO,AttentionNet等等。
  • 【CVPR2020】目标检测方向最新论文

    千次阅读 2020-04-03 10:48:08
    Xin Huang, Osamu Yoshie,Zequn Jie 备注:CVPR2020 链接:https://arxiv.org/abs/2003.12729 【5】Memory Enhanced Global-Local Aggregation for Video Object Detection 用于视频目标检测的记忆增强的全局-局部...
  • 点上方蓝字计算机视觉联盟获取更多干货在右上方···设为星标★,与你不见不散推荐几篇CPRR2019最新论文,含目标检测、分割、深度表示、GAN等领域【1】Stron...
  • Yolov-1-TX2上用YOLOv3训练自己数据集的流程(VOC2007-TX2-GPU) Yolov--2--一文全面了解深度学习性能优化加速引擎---...yolov-5-目标检测:YOLOv2算法原理详解 yolov--8--Tensorflow实现YOLO v3 yolov--9--Y...
  • 平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,...
  • R-CNN目标检测的奠基性文章,学习目标检测必看的经典论文之一,后续有Fast R-CNN,Faster R-CNN一系列论文。 目前网上能找到的论文翻译版本要么不全,要么不是最新版本的(论文从2014年发表后,又经过了多次修改完善...
  • 2020CVPR目标检测方向论文整理

    千次阅读 2020-03-31 17:50:37
    CVPR 2020目标检测方向最新论文   CVPR 2020的录用结果已经出来好久了,这篇博客汇集了各方资料,下面应该是目前放出来的比较全的paper和code,我会大致介绍一下文章在做什么,方便大家更快地去选择性阅读。...
  • 视觉目标检测(Object Detection)作为近年来的研究热点之一,受到了广泛关注,每年在计算机视觉三大会议(ICCV, CVPR, ECCV)上大量相关文章发表。密歇根大学Zhengxia Zou博士等人近期发布了《Object Detection in 20 ...
  • 本文分享的目标检测论文将同步推送到 github上,欢迎大家 star/fork:...目标检测论文 【1】Object Detection in 20 Years: A Survey 时间:2019年5月 作者:密歇根大学&北航&卡尔顿大学&a...

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 268
精华内容 107
关键字:

最新目标检测论文