精华内容
下载资源
问答
  • 目标检测三大开源神器:Detectron2/mmDetection/SimpleDet http://blog.itpub.net/69946223/viewspace-2674254/ 2019下半年最新监测方法 https://zhuanlan.zhihu.com/p/96115519

    目标检测三大开源神器:Detectron2/mmDetection/SimpleDet
    http://blog.itpub.net/69946223/viewspace-2674254/

    2019下半年最新监测方法
    https://zhuanlan.zhihu.com/p/96115519

    展开全文
  • 如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题。 目标检测 vs 其他计算机视觉问题图像分类 在计算机视觉领域中...


    image

    从简单的图像分类到3D位置估算,在机器视觉领域里从来都不乏有趣的问题。其中我们最感兴趣的问题之一就是目标检测。

    如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题。

    目标检测 vs 其他计算机视觉问题图像分类

    在计算机视觉领域中,最为人所知的问题便是图像分类问题。

    图像分类是把一幅图片分成多种类别中的一类。

    ImageNet是在学术界使用的最受欢迎的数据集之一,它由数百万个已分类图像组成,部分数据用于ImageNet大规模视觉识别挑战赛(ILSVRC)。 最近几年来,解决分类问题的模型已经有了超越人类的识别能力,所以分类问题实际上已经被解决了.

    然而,图像分类问题有许多挑战,相伴随着的是许多如何解决这些问题的文献以及对还未被解决的问题的探讨。

    image
    像分类实例

    1.目标定位

    同图像分类类似,目标定位要找到单个目标在图像中的位置。

    image
    标定位实例

    目标定位在实际生活中的应用很广泛,比如,智能剪切(通过定位目标所在的位置,识别需要图片从哪里剪切) ,或者进行常规的目标提取以便进一步处理。结合图像分类技术,它不仅仅可以定位目标,还能对该物体分类。

    2.实例分割

    从目标检测更进一步,我们不仅仅要找到图片中的对象,更是要发现该检测对象对应的像素码。我们把这个问题称为实例分割,或者是对象分割。

    3.目标检测

    在迭代处理定位和图片分类问题时,我们最终还是需要对多个目标进行同时检测和分类。目标检测是在图片中对可变数量的目标进行查找和分类。其中重要的区别是“可变”这一部分。

    和图像分类问题不同的是,由于每一张图片待检测目标的数量不一,目标检测的输出长度是可变的。在这篇文章中,我们将详细地介绍一些实际应用,讨论目标检测作为机器学习问题的主要困难,以及在过去的几年里如何应用深度学习处理目标检测。

    image
    目标检测实例

    实际案例

    在Tryolabs 中,我们专注于使用现有的机器学习方法解决商务问题,所以即使我们热衷于机器学习的科研问题,但最终我们还是要回归实际应用中。

    虽然目标检测从某种程度上在工业界还是一个很新的工具,但它已经有了很多实用和有趣的应用。

    1.人脸检测

    自20世纪中期以来,傻瓜相机开始通过更为高效的自动对焦来检测人面。 虽然这是一种比较浅显的目标检测应用,但是这种方法同样适用于其他类型的目标检测,我们稍后将会介绍。

    2.计数

    计数是一个简单但是经常被忽略的目标检测问题。统计人,车,花甚至是微生物数量是现实世界的需求,在大部分基于图像的系统中都要使用。近几年伴随着监控视频设备的不断涌现,使用机器视觉将原图像转化为结构化数据的需求也越来越多。

    3.视觉搜索引擎

    最后,我们比较喜欢的一个实例是Pinterest(图片社交平台)的视觉搜索引擎。

    他们将目标检测作为索引图像内容的处理流程之一。比如,你可以在不同的背景下找到某个特定的钱包。 这比Google Image的反向搜索引擎只是找到类似的图像更强大。


    image
    1:相似查找:我们应用目标检测方法定位包或鞋子这些产品。在这张图片中, 用户可以点击图片中的目标对象便可以查找类似的产品。

    4.空中影像分析

    在这个廉价无人机和卫星兴起的年代,我们能在空中获取空前多的关于地球的数据。 如今已经有越来越多的公司开始使用planet 或者descartes labs 公司提供的卫星图片,应用目标检测来计算汽车,树,船的数量。这些举措都为我们带来了高质量的数据,这在从前是不可能实现的。

    一些公司正在应用无人机摄像对人难以到达的地方进行自动监测(例如BetterView)或者使用物体检测方法进行整体分析(例如TensorFlight)。 除此之外,一些公司实现了不需人为干预下的场景自动检测和位置识别。

    image
    用TensorFlight实现汽车、树和行人的识别

    目标检测存在的问题和挑战

    现在,让我们开始深入了解目标检测中的主要问题。

    1.对象数量不确定

    我们在前面提到过对象数量可变,但是并没有解释为什么是个问题。当训练机器学习模型的时候,你经常需要把数据表示成固定长度的向量。如果在训练之前图片中的对象数量是未知的,模型的输出数量也就是未知的了。因此,一些增加模型复杂性的预处理是必要的。

    在传统的方法中,输出的数量可以使用滑动窗函数来计算,给不同位置产生一个固定大小的特征窗。在做完了预测之后,有些预测会被丢弃,有些会被合并到最终结果里面。


    0
    滑动窗示例

    2.对象大小不同

    另外一个挑战是处理不同大小对象的问题。面对一个简单的分类问题,你期望是尽可能将覆盖图片大部分面积的对象进行分类。而在有些情境中,你想识别的对象可能只有几十个像素点大小(或者说是原图片中占比很小的一部分)。以往人们通过使用不同大小的滑动窗来解决这个问题,这种方法虽然简单,却效率低下。

    3.建模

    第三个挑战是同时解决目标定位和图像分类这两个问题。 我们如何将这两种不同类型的需求组合到一个模型里呢?

    在进入深度学习和如何应对这些挑战之前,让我们先快速了解一些经典的检测方法。

    检测方法

    1.传统方法

    在这里我们将集中介绍其中两个最流行且目前依然被广泛使用的模型。

    第一个是2001年由Paul Viola和Michael Jones在论文《Robust Real-time Object Detection》里提出 的Viola-Jones框架。这个方法快速且相对简单,使得低处理能力的傻瓜相机得以进行实时的面部识别。

    我们不打算深入介绍它是如何工作和训练的,但是总体来说,该算法是通过使用哈尔特征(Haar features)生成许多(可能几千个)简单的二元分类器来实现的。这些分类器通过一个多尺度级联滑动窗进行评估,一旦遇到错误的分类结果则提前结束。

    另一个传统方法是使用方向梯度直方图(HOG)特征和支持向量机来分类。这个方法依然需要一个多尺度滑动窗,尽管它比Viola-Jones表现优异,但速度却慢了很多。

    2.深度学习方法

    在机器学习领域,深度学习一直是个大boss,尤其在计算机视觉方面。在图像分类的任务上,深度学习已经彻底击败了其他的传统模型。同样,在目标检测方面,深度学习也代表了目前的最先进水平。

    读到这里,你应该对我们面临的挑战和对解决它们的办法有了一定的了解,接下来我们将概述一下在过去的几年深度学习方法的发展历程。

    2013年由NYU(纽约大学) 提出的OverFeat 是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络(CNNs)来处理多尺度滑窗的算法。

    1.OverFeat

    2013年由NYU(纽约大学) 提出的OverFeat 是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络(CNNs)来处理多尺度滑窗的算法。

    .2R-CNN

    OverFeat提出后不久,加州大学伯克利分校的Ross Girshick及其同事就发表了Regins with CNN features,简称R-CNN的方法,该方法在物体识别挑战中有50%的效果提升。

    他们提出了目标检测分三步走的方法:

    •使用候选区域方法(最流行的一个是’Selective Search’)提取可能的物体

    •使用CNN从每一个区域提取特征

    •使用支持向量机(SVM)分类每一个区域


    image
    R-CNN架构
    Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." 2014.

    尽管R-CNN能达到很好的识别效果,但是它在训练中有很多的问题。

    为了训练模型,你首先要对训练数据集产生候选区域,然后把CNN特征提取应用于每一个区域(对于Pascal 2012数据集通常需要处理200GB的数据),最后再训练支持向量机分类器。

    3.Fast R-CNN

    R-CNN被提出不久后,它又延伸出了一个完全使用深度学习的版本——就在一年后,Ross Girshick(目前在微软研究中心)发表了Fast R-CNN。

    和R-CNN类似,Fast R-CNN依然采用Selective Search生成候选区域,但是和之前的分别提取出所有的候选区域然后使用支持向量机分类器不同,Fast R-CNN 在完整的图片上使用CNN然后使用集中了特征映射的兴趣区域(Region of Interest, RoI),以及前向传播网络进行分类和回归。这个方法不仅更快,而且有Rol集中层和全连接层,使得模型从头到尾可求导,更容易训练。

    Fast R-CNN最大的不足是,这个模型依然依赖Selective Search(或者其他的区域候选算法),当用该方法进行推论时,这块就成了一个瓶颈。


    image
    Fast R-CNN
    Girshick, Ross. "Fast R-CNN" 2015.

    4.YOLO

    在Fast R-CNN被提出过后不久,Joseph Redmon(与Girshick等人合著)发表了You Only Look Once:Unified, Real-Time Object Detection(YOLO)这篇论文。

    YOLO提出了一个兼具准确性和速度性的简单的卷积神经网络,首次实现了实时物体检测。

    image
    YOLO架构
    Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." 2016.

    5.Faster R-CNN

    接着,Shaoqing Ren(依然与Girshick合著,目前在Fackbook研究中心)发表了Faster R-CNN,这是R-CNN的第三次迭代。

    Faster R-CNN添加了候选区域网络(Region Proposal Network, RPN),试图取消对Selective Search 算法的依赖,这使得模型可以完全实现端到端训练。

    我们暂时不会详细深入地介绍RPNs的运行原理,但抽象地说,它基于一个叫“物体性”(objectness)的分数输出对象。这些物体被用在Rol集中层和全连接层,从而实现分类的目标。


    image
    Faster R-CNN架构
    Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." 2015.

    6.SSD和R-FCN

    最后,还有两篇论文不得不提:Single Shot Detector(SSD) 和 Region-based Fully Convolutional Networks(R-FCN)。 前者在YOLO的基础上使用多尺寸的卷积特征图使得在结果和速度上都有提升。后者基于Faster R-CNN的架构,但是只使用了卷积网络。

    数据集的重要性
    在研究中,数据集扮演了十分重要的角色,其重要性经常被低估。每一次新的数据集发布,都会有论文被发表,新的模型在此基础上进行比对和提升,把不可能变成可能。

    很可惜,对于目标检测,我们还没有足够的数据集。数据很难产生,而且成本很高,具备优秀数据库的公司一般不愿意公开他们的数据,而学校则无法接触到优质的数据集。

    话虽如此,我们还是有一些不错的公开数据可以使用,下面的列表就是目前可用的主要数据集。


    image

    结论

    最后,在目标检测领域,还有很多未知的领域值得我们探索,不论是业界应用还是新型算法。尽管这篇文章只对目标检测作了简单的概述,我们依然希望它能帮助你初步了解目标检测这一领域,并为你更进一步的学习打下基础。

    原文发布时间为:2017-09-27
    编译:及子龙,张礼俊
    余志文,钱天培
    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

    展开全文
  • 如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题。 目标检测 vs 其他计算机视觉问题图像分类 在计算机视觉领域...

    从简单的图像分类到3D位置估算,在机器视觉领域里从来都不乏有趣的问题。其中我们最感兴趣的问题之一就是目标检测。

    如同其他的机器视觉问题一样,目标检测目前为止还没有公认最好的解决方法。在了解目标检测之前,让我们先快速地了解一下这个领域里普遍存在的一些问题。

    目标检测 vs 其他计算机视觉问题图像分类

    在计算机视觉领域中,最为人所知的问题便是图像分类问题。

    图像分类是把一幅图片分成多种类别中的一类。

    ImageNet是在学术界使用的最受欢迎的数据集之一,它由数百万个已分类图像组成,部分数据用于ImageNet大规模视觉识别挑战赛(ILSVRC)。 最近几年来,解决分类问题的模型已经有了超越人类的识别能力,所以分类问题实际上已经被解决了.

    然而,图像分类问题有许多挑战,相伴随着的是许多如何解决这些问题的文献以及对还未被解决的问题的探讨。

    image
    像分类实例

    1.目标定位

    同图像分类类似,目标定位要找到单个目标在图像中的位置。

    image
    标定位实例

    目标定位在实际生活中的应用很广泛,比如,智能剪切(通过定位目标所在的位置,识别需要图片从哪里剪切) ,或者进行常规的目标提取以便进一步处理。结合图像分类技术,它不仅仅可以定位目标,还能对该物体分类。

    2.实例分割

    从目标检测更进一步,我们不仅仅要找到图片中的对象,更是要发现该检测对象对应的像素码。我们把这个问题称为实例分割,或者是对象分割。

    3.目标检测

    在迭代处理定位和图片分类问题时,我们最终还是需要对多个目标进行同时检测和分类。目标检测是在图片中对可变数量的目标进行查找和分类。其中重要的区别是“可变”这一部分。

    和图像分类问题不同的是,由于每一张图片待检测目标的数量不一,目标检测的输出长度是可变的。在这篇文章中,我们将详细地介绍一些实际应用,讨论目标检测作为机器学习问题的主要困难,以及在过去的几年里如何应用深度学习处理目标检测。

    image
    目标检测实例

    实际案例

    在Tryolabs 中,我们专注于使用现有的机器学习方法解决商务问题,所以即使我们热衷于机器学习的科研问题,但最终我们还是要回归实际应用中。

    虽然目标检测从某种程度上在工业界还是一个很新的工具,但它已经有了很多实用和有趣的应用。

    1.人脸检测

    自20世纪中期以来,傻瓜相机开始通过更为高效的自动对焦来检测人面。 虽然这是一种比较浅显的目标检测应用,但是这种方法同样适用于其他类型的目标检测,我们稍后将会介绍。

    2.计数

    计数是一个简单但是经常被忽略的目标检测问题。统计人,车,花甚至是微生物数量是现实世界的需求,在大部分基于图像的系统中都要使用。近几年伴随着监控视频设备的不断涌现,使用机器视觉将原图像转化为结构化数据的需求也越来越多。

    3.视觉搜索引擎

    最后,我们比较喜欢的一个实例是Pinterest(图片社交平台)的视觉搜索引擎。

    他们将目标检测作为索引图像内容的处理流程之一。比如,你可以在不同的背景下找到某个特定的钱包。 这比Google Image的反向搜索引擎只是找到类似的图像更强大。


    image
    1:相似查找:我们应用目标检测方法定位包或鞋子这些产品。在这张图片中, 用户可以点击图片中的目标对象便可以查找类似的产品。

    4.空中影像分析

    在这个廉价无人机和卫星兴起的年代,我们能在空中获取空前多的关于地球的数据。 如今已经有越来越多的公司开始使用planet 或者descartes labs 公司提供的卫星图片,应用目标检测来计算汽车,树,船的数量。这些举措都为我们带来了高质量的数据,这在从前是不可能实现的。

    一些公司正在应用无人机摄像对人难以到达的地方进行自动监测(例如BetterView)或者使用物体检测方法进行整体分析(例如TensorFlight)。 除此之外,一些公司实现了不需人为干预下的场景自动检测和位置识别。

    image
    用TensorFlight实现汽车、树和行人的识别

    目标检测存在的问题和挑战

    现在,让我们开始深入了解目标检测中的主要问题。

    1.对象数量不确定

    我们在前面提到过对象数量可变,但是并没有解释为什么是个问题。当训练机器学习模型的时候,你经常需要把数据表示成固定长度的向量。如果在训练之前图片中的对象数量是未知的,模型的输出数量也就是未知的了。因此,一些增加模型复杂性的预处理是必要的。

    在传统的方法中,输出的数量可以使用滑动窗函数来计算,给不同位置产生一个固定大小的特征窗。在做完了预测之后,有些预测会被丢弃,有些会被合并到最终结果里面。


    0
    滑动窗示例

    2.对象大小不同

    另外一个挑战是处理不同大小对象的问题。面对一个简单的分类问题,你期望是尽可能将覆盖图片大部分面积的对象进行分类。而在有些情境中,你想识别的对象可能只有几十个像素点大小(或者说是原图片中占比很小的一部分)。以往人们通过使用不同大小的滑动窗来解决这个问题,这种方法虽然简单,却效率低下。

    3.建模

    第三个挑战是同时解决目标定位和图像分类这两个问题。 我们如何将这两种不同类型的需求组合到一个模型里呢?

    在进入深度学习和如何应对这些挑战之前,让我们先快速了解一些经典的检测方法。

    检测方法

    1.传统方法

    在这里我们将集中介绍其中两个最流行且目前依然被广泛使用的模型。

    第一个是2001年由Paul Viola和Michael Jones在论文《Robust Real-time Object Detection》里提出 的Viola-Jones框架。这个方法快速且相对简单,使得低处理能力的傻瓜相机得以进行实时的面部识别。

    我们不打算深入介绍它是如何工作和训练的,但是总体来说,该算法是通过使用哈尔特征(Haar features)生成许多(可能几千个)简单的二元分类器来实现的。这些分类器通过一个多尺度级联滑动窗进行评估,一旦遇到错误的分类结果则提前结束。

    另一个传统方法是使用方向梯度直方图(HOG)特征和支持向量机来分类。这个方法依然需要一个多尺度滑动窗,尽管它比Viola-Jones表现优异,但速度却慢了很多。

    2.深度学习方法

    在机器学习领域,深度学习一直是个大boss,尤其在计算机视觉方面。在图像分类的任务上,深度学习已经彻底击败了其他的传统模型。同样,在目标检测方面,深度学习也代表了目前的最先进水平。

    读到这里,你应该对我们面临的挑战和对解决它们的办法有了一定的了解,接下来我们将概述一下在过去的几年深度学习方法的发展历程。

    2013年由NYU(纽约大学) 提出的OverFeat 是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络(CNNs)来处理多尺度滑窗的算法。

    1.OverFeat

    2013年由NYU(纽约大学) 提出的OverFeat 是最早将深度学习用于目标检测的方法之一。他们提出了一个使用卷积神经网络(CNNs)来处理多尺度滑窗的算法。

    .2R-CNN

    OverFeat提出后不久,加州大学伯克利分校的Ross Girshick及其同事就发表了Regins with CNN features,简称R-CNN的方法,该方法在物体识别挑战中有50%的效果提升。

    他们提出了目标检测分三步走的方法:

    •使用候选区域方法(最流行的一个是’Selective Search’)提取可能的物体

    •使用CNN从每一个区域提取特征

    •使用支持向量机(SVM)分类每一个区域


    image
    R-CNN架构
    Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." 2014.

    尽管R-CNN能达到很好的识别效果,但是它在训练中有很多的问题。

    为了训练模型,你首先要对训练数据集产生候选区域,然后把CNN特征提取应用于每一个区域(对于Pascal 2012数据集通常需要处理200GB的数据),最后再训练支持向量机分类器。

    3.Fast R-CNN

    R-CNN被提出不久后,它又延伸出了一个完全使用深度学习的版本——就在一年后,Ross Girshick(目前在微软研究中心)发表了Fast R-CNN。

    和R-CNN类似,Fast R-CNN依然采用Selective Search生成候选区域,但是和之前的分别提取出所有的候选区域然后使用支持向量机分类器不同,Fast R-CNN 在完整的图片上使用CNN然后使用集中了特征映射的兴趣区域(Region of Interest, RoI),以及前向传播网络进行分类和回归。这个方法不仅更快,而且有Rol集中层和全连接层,使得模型从头到尾可求导,更容易训练。

    Fast R-CNN最大的不足是,这个模型依然依赖Selective Search(或者其他的区域候选算法),当用该方法进行推论时,这块就成了一个瓶颈。


    image
    Fast R-CNN
    Girshick, Ross. "Fast R-CNN" 2015.

    4.YOLO

    在Fast R-CNN被提出过后不久,Joseph Redmon(与Girshick等人合著)发表了You Only Look Once:Unified, Real-Time Object Detection(YOLO)这篇论文。

    YOLO提出了一个兼具准确性和速度性的简单的卷积神经网络,首次实现了实时物体检测。

    image
    YOLO架构
    Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." 2016.

    5.Faster R-CNN

    接着,Shaoqing Ren(依然与Girshick合著,目前在Fackbook研究中心)发表了Faster R-CNN,这是R-CNN的第三次迭代。

    Faster R-CNN添加了候选区域网络(Region Proposal Network, RPN),试图取消对Selective Search 算法的依赖,这使得模型可以完全实现端到端训练。

    我们暂时不会详细深入地介绍RPNs的运行原理,但抽象地说,它基于一个叫“物体性”(objectness)的分数输出对象。这些物体被用在Rol集中层和全连接层,从而实现分类的目标。


    image
    Faster R-CNN架构
    Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." 2015.

    6.SSD和R-FCN

    最后,还有两篇论文不得不提:Single Shot Detector(SSD) 和 Region-based Fully Convolutional Networks(R-FCN)。 前者在YOLO的基础上使用多尺寸的卷积特征图使得在结果和速度上都有提升。后者基于Faster R-CNN的架构,但是只使用了卷积网络。

    数据集的重要性
    在研究中,数据集扮演了十分重要的角色,其重要性经常被低估。每一次新的数据集发布,都会有论文被发表,新的模型在此基础上进行比对和提升,把不可能变成可能。

    很可惜,对于目标检测,我们还没有足够的数据集。数据很难产生,而且成本很高,具备优秀数据库的公司一般不愿意公开他们的数据,而学校则无法接触到优质的数据集。

    话虽如此,我们还是有一些不错的公开数据可以使用,下面的列表就是目前可用的主要数据集。


    image

     

    结论

    最后,在目标检测领域,还有很多未知的领域值得我们探索,不论是业界应用还是新型算法。尽管这篇文章只对目标检测作了简单的概述,我们依然希望它能帮助你初步了解目标检测这一领域,并为你更进一步的学习打下基础。

    展开全文
  • 结合深度卷积神经网络(CNN)提出基于旋转不变Faster R-CNN的低空装甲目标检测方法, 该方法在Faster R-CNN框架的基础上引入旋转不变层, 通过在模型的目标函数上增加正则化约束条件来加强目标CNN特征旋转前后的不变性...
  • 目标检测 - Tensorflow Object Detection API

    万次阅读 热门讨论 2017-06-25 23:04:05
    找到最好的工具 “工欲善其事,必先利其器”,如果你想找一个深度学习框架来解决深度学习问题,TensorFlow 就是你的不二之选,究其原因,也不必过多解释,看过其优雅的代码架构和工程化实现之后,相信这个问题不会...

    一. 找到最好的工具

           “工欲善其事,必先利其器”,如果你想找一个深度学习框架来解决深度学习问题,TensorFlow 就是你的不二之选,究其原因,也不必过多解释,看过其优雅的代码架构和工程化实现之后,相信这个问题不会有人再提,这绝非 Caffe an so on 所能比拟的。

           回到题头 - 目标检测,相信你一定看过这篇 Paper: Speed/accuracy trade-offs for modern convolutional object detectors, Huang J, CVPR2017

           所谓 Trade-Off 是指精度和效率之间的 Trade-Off,TensorFlow 给出了该方法的具体实现:

           代码下载:Github


    二. 跑通代码

           先来看页面介绍,来看 Show 出的检测效果对比(IncResnet V2 对小目标的检测效果非常不错):

           

    三. 论文阅读

           程序跑起来之后,还是有必要来读一遍论文,了解技术原理,对于代码的运用和参数调整都有很大作用。

           这是一篇综述性质的论文,主要比较了 Faster R-CNN,RFCN,SSD 三种检测框架,原理示意如下:


           针对每个框架,结合不同的 特征提取网络来进行整合实验,里面主要比较的网络有:VGG,Inception v3,Resnet-101,Inception Resnet 等。

                  Model 

                  Top-1 accuracy            

          Num. Params.       

      VGG-16

     71.0

      14,714,688

      MobileNet

     71.1

      3,191,072

      Inception V2

     73.9

      10,173,112

      ResNet-101

     76.4

      42,605,504

      Inception V3

     78.0

      21,802,784

      Inception Resnet V2     

     80.4

      54,336,736

           具体每个网络就不展开了,这个都比较熟悉,通过比较,我们最关心的两点,一是准确度,二是效率,直接贴出来原文的图来说明:

            

            

           可以看到,精度最高的Faster R-CNN效率是最低的,网络复杂度最高的 Inception Resnet 带来的精度提升比较明显,同样的,用 GPU Time 衡量的计算量与 Float运算、内存容量各方面的衡量指标是类似的,这里就不再全部列出来了。

           可以通过两种方式有效提高算法效率: 一是降低图像分辨率,二是减少 Proposal 数量(仅支持Faster R-CNN 和 RFCN )。

           需要强调一点的是 Region Proposal 的数量,对于效率的影响会比较明显,因为Proposal数量 决定了计算量(几乎是成比例的),因此提高 Proposal的准确度,减少数量是最好的方式(最有效的提高效率)。

    展开全文
  • YOLO目标检测编程练习

    千次阅读 2018-12-12 08:43:09
    YOLO 在本文中,我们将研究一个这样的对象检测框架——YOLO。这是一个非常快速和精确的框架,YOLO框架(You Only Look Once)与R-...这是最好的目标检测算法之一,表现出了与R-CNN算法相对相似的性能。 作为刚接触...
  • 基于关键点的ConnerNet在总多one-stage目标检测算法中取得了最好的成绩,但是取得这个精度需要高额的运算开销,本文解决了这个基于关键点目标检测的问题并介绍了ConnerNet-Lite。ConnerNet-Lite是结合了两种高效的...
  • 1.正负样本定义与OD当前检测框架的冲突: 在谈OD前,简单回顾一下分类问题中的正负样本问题,以最简单的二分 类问题开始,比如猫狗分类,如果我们有100张图片,也就有了100个样本,猫狗数量五五开,那肯定是最好的,...
  • 一. 找到最好的工具  “工欲善其事,必先利其器”,如果你想找一个深度学习框架来解决深度学习问题,TensorFlow 就是你的不二之选,究其原因,... 回到题头 - 目标检测,相信你一定看过这篇 Paper: Speed/accu
  • 当前最好的基于深度网络的目标检测框架可以分为两个主要方法流派:基于区域的方法(region-based)和不基于区域(region-free)的方法。两种方法各有优势和劣势。 由清华大学计算机系智能技术与系统国家重点实验室...
  • Faster R-CNN是当前目标检测领域内性能最好的算法之一,它将RPN(Region Proposal Network)网络和Fast R-CNN网络结合到了一起,实现了一个端到端的目标检测框架。本文记录的是Ubuntu14.04下配置和测试Faster R-CNN...
  • Faster R-CNN 从2015年底至今已经有接近两年了,但依旧还是Object Detection领域主流框架之一,虽然推出了后续 R-FCN,Mask R-CNN 等改进框架,但基本结构变化不大。同时不乏有SSD,YOLO等骨骼清奇新作,但精度...
  • 简述: 本文提出了CornerNet,这是一种新的对象检测方法,我们使用一个单一的卷积神经...以往的网络框架都离不开anchor boxes,本实验在所有one-stage detectors中用MS COCO 数据集上表现出了最好的效果。 问题or...
  • SIFT算法是目前公认的效果最好的特征点检测算法,关于该算法的就不多说了,网上的资料有很多,在此提供两个链接,一个是SIFT原文的译文,一个是关于SIFT算法的详细解释: SIFT算法译文 SIFT算法详解 整个实现过程...
  • 在进行YOLOV3网络框架训练之前最好先熟悉一下自身所使用软硬件配置。 本机环境:Ubuntu16.04+Python3.5.2+OPENCV3.1.0+CUDA 8.0.61+CUDNN5.1.10 查看本机CUDA版本 :cat /usr/local/cuda/version.txt 查看...
  • 本文目标是通过使用SIFT和RANSAC算法,完成特征点的正确匹配,并求出变换矩阵,通过变换矩阵计算出要识别物体的边界(文章中有部分源码,整个工程...SIFT算法是目前公认的效果最好的特征点检测算法,关于该算法的...
  • 图像分类到运行demo中yolov3 的目标检测以及NLP领域的情感分析等。感觉对paddlepaddle的框架使用的很顺手,在以后的学习生活中将会进一步加深框架的应用。希望aistudio平台越办越好。最好多点32GB...
  • 在保证了精度的同时,又提高了检测速度,相比当时的Yolo和Faster R-CNN是最好的目标检测算法了,可以达到实时检测的要求。在Titan X上,SSD在VOC2007数据集上的mAP值为74.3%,检测速度为59fps。 SSD SSD效果为...
  • 实战CenterNet,训练猫脸关键点检测数据集并测试

    千次阅读 热门讨论 2020-03-18 18:54:51
    实战CenterNet,训练猫脸关键点检测数据集...因为网上现在大多都是利用CenterNet进行目标检测,但是我觉得目标检测用CenterNet显然不是最好的,关于目标检测可以看mmdetection这个框架,可以参考我这篇博客: mmdete...
  • SSD(SSD: Single Shot MultiBox Detector)是采用单个深度神经网络模型实现目标检测和识别方法。...目前目标检测领域,效果最好,影响力最大还是RCNN那一套框架,这种方法需要先在图像中提取可能含有目标

空空如也

空空如也

1 2 3 4 5
收藏数 95
精华内容 38
关键字:

最好的目标检测框架