精华内容
下载资源
问答
  • 目标检测研究现状调研

    千次阅读 2019-08-20 15:43:05
    近期在调研目标检测研究现状,包括two-stage和one-stage,以及anchor-based和anchor-free。 把用到的一些链接记录一下 ,方便查阅。 机器之心的一篇文章: 从锚点到关键点,最新的目标检测方法发展到哪了 这篇...

    近期在调研目标检测的研究现状,包括two-stage和one-stage,以及anchor-based和anchor-free。

    把用到的一些链接记录一下 ,方便查阅。

    机器之心的一篇文章:

    从锚点到关键点,最新的目标检测方法发展到哪了

    这篇文章介绍了目标检测方法从anchor-based到anchor-free的发展,并指出anchor-free将会是比较有前景的研究方向。文章是以一篇综述为基础展开介绍的。Recent Advances in Deep Learning for Object Detection这篇综述是2019年的论文。

    Faster-RCNN

    YOLOv3

    FCOS:Fully Convolutional One-Stage Object Detection

    这是比较新的一篇anchor-free的one-stage目标检测方法,整体结构图如下图所示。首先是用FPN来抽取不同multi-level的特征。然后在feature map的每个点上回归,训练bounding box和class。训练阶段还单独训练了center-ness分支,以计算center-ness,使得离中心较远的bounding box有较低的置信度。test阶段即抽取特征,然后给出bounding box和label,confidence是由center-ness和classification的置信度相乘得出的。

    1.FCOS回归目标和Loss

    把每张feature map的每个坐标都可以映射回原输入图像。如果某个feature map的坐标落在某个ground truth的框内,那么这就是一个正样本,可以拿来做训练。首先做个映射,计算feature map中的这个点,到ground truth的距离。如下图所示,这就是训练阶段的回归目标。

    从这里我们可以看到,由于采用了FPN和逐像素匹配,FCOS可以尽可能多地利用ground truth,而且所有送入训练的样本都是正样本。这与anchor-based检测器不同,anchor-based detectors仅考虑IOU较高的作为正样本,作者认为这可能是FCOS表现高于一些anchor-based检测器的原因之一。

    在网络输出阶段,FCOS是直接将分类和回归分支接到FPN和4个conv后面,没有anchor的生成过程和修正过程,因此减少了参数量和计算量。

    损失函数如下所示。前半部分是分类的focal loss(这篇文章都是在和RetinaNet做对比,很多参数设置和它一样),后半部分是IOU loss。

    2.multi-level prediction with FPN

    在FCOS中使用FPN主要是考虑了目标重叠的问题,而且用不同level的特征检测不同大小的目标,能很大程度上提高精度。在不同的feature map中,都去找合适的(这部分存疑)文中提到的head是涉及RetinaNet的,看完RetinaNet再理解这篇应该会容易多。

    3.center-ness

    center-ness是由于,检测出的许多低质量的bounding box都是由于边框离中心太远了。所以提出center-ness可以将这部分的bounding box的confidence降低(center-ness越小说明边框离中心点越远)。这个公式是在训练过程中计算的,如果在test阶段就直接从该branch得到计算后的center-ness,然后直接与label的置信度相乘,得到最终的置信度。

    4.实验及结果

    作者做了很多很多对比实验,来说明FPN,center-ness等组件的作用,而且绝大多数超参数都是直接用的RetinaNet的。而且效果也被证明挺不错。

    RetinaNet

    RetinaNet: Focal loss在目标检测中的应用

    这篇文章是2018年Kaiming的提出focal loss的文章,是为了解决类别不平衡的问题。

    FPN:Feature Pyramid Networks

    FPN网络的结构并不复杂,包括bottom-up pathway和top-down pathway、lateral connections。通过横向连接,使得FPN在后面的预测阶段能够结合了之前的特征抽取阶段的特征。

    在resnet等网络中,后面的高层语义同样也与前面的底层特征相连接。既然抽取特征的阶段也是一层一层抽取的,为什么不直接在每层顺便做预测或者后续的检测等任务呢?下面这篇文章的一句话给出了解释。因为在抽取特征阶段,不同层对应的是不同层次的语义信息。如果直接做预测,这就强行让不同层学习同样的语义信息了,效果可能不是很好。

    CVPR 2017论文解读:特征金字塔网络FPN

    在FPN原文中,作者把FPN分别应用在RPN和fast RCNN两步,都取得了不错的效果。

    R-FCN

    https://blog.csdn.net/wfei101/article/details/79284512

    听名字就知道,这个full conv network为基础的检测网络,没有全连接层。如下图所示,在backbone提取的feature maps上,用k^2(C+1)个卷积核,得到一个score maps。然后利用FPN找到ROI,做ROI pooling。这种方法不像faster rcnn,需要对每个ROI分别再单独计算。

    展开全文
  • 20年目标检测综述.pptx

    2020-02-29 10:59:35
    这份PPT是针对对应的顶会论文做的学习PPT,下载者可以通过它:①快速了解论文阅读方法②对目标检测有了一定了解③精美的PPT模板,可以拿去改做他用
  • 运动目标检测——研究现状

    万次阅读 多人点赞 2016-06-25 23:09:52
    运动目标检测是指通过计算机视觉的方法减除视频中时间和...经过几十年来的研究人员的努力,运动目标检测技术取得了不错的成果,广泛应用于智能监控、多媒体应用等领域。目前,国际上有关该领域研究的权威杂志有:PAM

            运动目标检测是指通过计算机视觉的方法减除视频中时间和空间上的冗余信息,有效地提取出发生空间位置变化的物体的过程。它一直是一个十分热门的研究领域,在IEEE Xplore上输入“motion detection”进行快速搜索,就会返回18000多篇文献。经过几十年来的研究人员的努力,运动目标检测技术取得了不错的成果,广泛应用于智能监控、多媒体应用等领域。目前,国际上有关该领域研究的权威杂志有:PAMI( Transaction on Pattern Analysis & Machine Intelligence)IVC( Image and Vision Computing)等,还有一些重要的学术会议:CVPR( IEEE Computer Society Conference on Computer Vision and Pattern Recognition)ICCV(International Conference on Computer Vision)ECCV( European Conference on Computer Vision)IWVS( International Workshop on Vision Surveillance)等。这些年来,根据应用场合、技术方法等方面的不同,学者们提出了众多不同的运动目标检测的方法,以适应复杂多变的环境。

            早在上个世纪70年代末,Jain等人在文献[9]中提出了使用帧间差分的方法来提取运动目标。帧差法对包含运动目标的场景有着比较强的鲁棒性,且运算速度快,但该方法一般不能完全检测出运动物体的所有像素点,常常在检测到的运动物体内部出现“空洞”现象,因此该方法适用于简单的运动检测的情况。

            针对帧间差分法的不足,学者们提出了一种基于统计学原理的运动目标检测的思路,即:先通过统计学理论建立一个背景模型,再利用背景差分法对运动目标与背景的像素点进行分类。Gloyer等人在文献[10]中就采用了这种思路,背景模型使用中值法建立,即使用连续的N帧图像序列的像素值的中值做为背景模型。但是这种方法耗费内存较大,计算量也不小,而且在光照变化的环境中常常出现偏差。针对这种局限性,1997年Wren等人提出使用单高斯进行背景建模方法[11],利用阈值判断像素点是否属于前景。然而,背景通常是复杂的多模情况(如晃动的树叶等),所以使用单高斯模型往往不能准确地描述背景模型。因此,1999年Stauffer等人提出了经典的混合高斯背景建模法[12],该方法通常能够很好地适应复杂场景,并通过模型参数的自动计算来调整背景模型,但是由于增加了高斯分布的个数,计算量也增大。在过去的十几年里,提出了很多基于混合高斯模型的改进算法,如:2004年Zivkovic等人在文献[13]中提出的高斯模型个数自适应的算法,使得算法效率、鲁棒性得以提升。然而,实际情况下的背景往往是快速变化的,有时候并不符合高斯分布,故使用高斯模型进行背景建模就会产生问题。因此,2000年Elgammal等人提出了一种无参数的基于核密度估计[14]的运动目标检测法,该方法不需要对背景的密度分布做任何假设,而是通过最近的几个图像样本信息利用标准核函数准确地估计出像素点,进行提取运动目标。实验结果表明该方法在复杂的户外场景中有较好的适应性,但缺点是计算量大,实时性不好。

             2005年,Wang等人提出了基于样本一致性(SACON)的背景建模方法[21,22]。该方法同样也避免了对视频序列的像素值进行任何概率估计的假设,而是先通过计算新像素与背景模型的样本的距离,然后统计距离相近的样本数目,最后根据样本数目的多少来判断是否为前景。2009年,Barnich等人在文献[19]中又提出了一种新颖的基于像素点的运动目标检测法,并命名为视觉背景提取法(ViBe),该算法直接对每一个像素点按照一定的规则随机地选取一定数量的像素值进行背景建模,然后采用欧氏距离对像素点进行前景与背景的分类。该算法的优点是不需要假定任何的概率模型,并且可以在视频序列的第二帧就进行运动目标的检测,计算速度也很快。2011年,Barnich等人又在文献[20]中对经典的运动目标检测算法做了一个总结并与ViBe进行比较,最后,通过实验证明了ViBe高效率的特点。虽然该文献给出了不错的检测结果,但是在一些深色背景、阴影以及背景快速变化的场景中还是会出现一些问题,如“鬼影”现象等。2012年,Hofmann等人在文献[23]中首次提出了PBAS(Pixel-Based Adaptive Segmenter)运动目标检测法。该算法根据SACON与ViBe两种算法的优势进行相关结合与改进,使得目标检测准确度得到了进一步的提高,但该算法的计算量较大,实时性不好。

            从以上介绍可以看出,基于统计学理论的运动目标检测法的研究经历了一个由简单模型到复杂模型,再到简单模型的过程。在这类运动目标检测法快速发展的同时,学者们还提出了很多种不同理论基础的运动目标检测法,如基于聚类理论的方法、基于模糊理论的方法、背景预测法、基于神经网络的方法以及光流法等[15-18,38,39]

            基于聚类的运动目标检测法的经典算法是Kim等人于2005年在文献[15]提出了CodeBook法。相对于那个时期的MOG,KDE等算法来说,CodeBook没有使用概率模型,而是使用码本对像素进行分类进而实现提取前景目标。该方法也能够适应一定的复杂场景。但是,由于场景的复杂多变,码本中码字将会不断增加,这将导致消耗内存过多,实时性也受到一定的限制。

            针对实际场景中存在的很多不确定因素,近些年,一些学者提出利用模糊理论解决背景减法中的不精确性和不确定性。根据模糊理论的不同,这类方法又分为传统模糊背景建模和二型模糊背景建模[38,39]。实验证明基于模糊模型的背景建模方法在光照变化、动态背景等复杂场景中具有良好的鲁棒性,但是,其缺点是增加的计算量,也会耗费更多的内存。

            背景预测法是指使用滤波器来估计背景,如果当前帧的某个像素值偏离其预测值时,则被认为是前景。文献[27]使用了卡尔曼滤波器来对背景值进行估计,该方法能够适应光线快速变化的场合,但检测的准确度不高,而且当运动目标的运动速度较慢时,检测结果往往会出现“拖影”现象。

            2008年,Maddalena等人在文献[24]中提出了一种基于自组织神经网络的背景减除法(SOBS)。该算法通过自组织的方法生成一张神经网络的背景模型,然后通过当前帧与背景模型的像素点之间的距离来提取运动目标。随后,Maddalena等人又对SOBS进行了改进,提出了SC-SOBS[25],将空间一致性引入背景更新阶段,进一步提高了算法的鲁棒性。

            在2006年以前,学者们提出了很多基于“像素”特征的运动目标检测的方法,很少有人提出以“区域”或者“帧”为特征的运动目标检测法。而纹理特征就是一种极易区分图像的区域特征,Heikkila等人就首次提出一种基于LBP的纹理直方图来进行背景建模的方法[8],但是由于纹理的计算复杂度高,所以这类方法实时性并不好。而国内关于这一方向的研究也取得了不错的成果。2010年中科院自动化所得廖博士在文献[33]中提出了一种新的纹理描述法SILTP,并结合模式核密度估计法进行前景与背景的分割。该算法能够处理复杂环境下的运动目标的检测。而基于帧的运动目标检测方法则采用了直接对视频帧进行背景建模的思路,经典的算法有本征背景减除法[32]。该算法利用主成分分析(PCA)对连续多帧视频进行特征分解,进而提取前景,这一方法的提出也开创了运动目标检测的新发展方向。

            以上介绍了很多种运动目标检测算法,然而没有任何一种算法适用于所有的情况下的运动目标检测。因此,运动目标检测的关键在于如何根据现有相关理论,结合实际场景的特点,寻求合适的方法,从而满足实际应用的需求。


    【参考文献】

    [9] Jain R, Nagel H H. On the analysis of accumulative difference pictures from image sequences of real world scenes.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1979, 1(2):206-214.

    [10] Gloyer B, Aghajan H K, Siu K Y, et al. Video-based freeway-monitoring system using recursive vehicle tracking[J]. Proc Spie, 1995, 2421:173-180.

    [11] Wren C R, Azarbayejani A, Darrell T, et al. Pfinder: Real-time tracking of the human body[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1997, 19(7):780 - 785.

    [12] Stauffer, Chris, Grimson, W.E.L. Adaptive Background Mixture Models for Real-Time Tracking[J]. Proc Cvpr, 1999, 2:2246.

    [13] Zivkovic Z. Improved Adaptive Gaussian Mixture Model for Background Subtraction[C]// Pattern Recognition, International Conference on. IEEE Computer Society, 2004:28-31.

    [14] Elgammal A, Harwood D, Davis L. Non-parametric model for background substraction[J]. Proceedings of the Computer Vision, 2000:751--767.

    [15] Kim K, Chalidabhongse T H, Harwood D, et al. Background modeling and subtraction by codebook construction[C]// Image Processing, 2004. ICIP '04. 2004 International Conference on. IEEE, 2004:3061-3064 Vol. 5.
    [16] Kim K, Chalidabhongse T H, Harwood D, et al. Real-time foreground–background segmentation using codebook model[J]. Real-Time Imaging, 2005, 11(3):172-185.

    [17] Li Y, Chen F, Xu W, et al. Gaussian-Based Codebook Model for Video Background Subtraction[J]. Lecture Notes in Computer Science, 2006, 4222:762-765.

    [18] Geng L, Xiao Z T. Real Time Foreground-Background Segmentation Using Two-Layer Codebook Model[C]// Control, Automation and Systems Engineering (CASE), 2011 International Conference on. IEEE, 2011:1-5.

    [19] Barnich O, Vanogenbroeck M. ViBE: A powerful random technique to estimate the background in video sequences[C]// IEEE International Conference on Acoustics, Speech & Signal Processing. 2009:945-948.

    [20] Olivier B, Marc V. ViBe: a universal background subtraction algorithm for video sequences.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2011, 20(6):1709-1724.

    [21] Wang H, Suter D. SACON: A Consensus Based Model for Background Subtraction[J]. Schools & Disciplines, 2005.

    [22] Wang H, Suter D. Background Subtraction Based on a Robust Consensus Method[C]// Pattern Recognition, International Conference on. IEEE Computer Society, 2006:223-226.

    [23] Hofmann M, Tiefenbacher P, Rigoll G. Background segmentation with feedback: The Pixel-Based Adaptive Segmenter[C]// Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012:38-43.

    [24] Maddalena L, Petrosino A. A self-organizing approach to background subtraction for visual surveillance applications.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2008, 17(7):1168-1177.

    [25] Maddalena L, Petrosino A. The SOBS algorithm: What are the limits?[C]// Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012:21-26.

    [26] Ebner M. Evolving color constancy[J]. Pattern Recognition Letters, 2006, 27(11):1220-1229.

    [27] Karmann K P. Achim von Brandt. Moving Object Recognition Using an Adaptive Background Memory[C]// Time-varying Image Processing & Moving Object Recognition. 1990.

    [28] Toyama K, Krumm J, Brumitt B, et al. Wallflower: principles and practice of background maintenance[C]// IEEE International Conference on Computer Vision. IEEE, 1999:255-261 vol.1.

    [29] Bouwmans T, Baf F E, Vachon B. Background Modeling using Mixture of Gaussians for Foreground Detection: A Survey[J]. Recent Patents on Computer Science, 2008, 1(3):219-237.

    [30] Benezeth Y, Jodoin P M, Emile B, et al. Comparative study of background subtraction algorithms[J]. Journal of Electronic Imaging, 2010, 19(3):033003-033003.

    [31] T. Bouwmans, F. El-Baf, and B. Vachon. Statistical background modeling for foreground detection: A survey. Handbook of Pattern Recognition and Computer Vision, World Scientific Publishing, 4(2):181–199, January 2010.

    [32] Oliver N, Rosario B, Pentland A. A Bayesian Computer Vision System for Modeling Human Interactions[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 22(8):831-843.

    [33] Liao S, Zhao G, Kellokumpu V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]// Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010:1301-1306.

    展开全文
  • 细致讲述目前目标检测的几大主流方法,用于深度学习,是不可多得的好文章!
  • Object Detection in 20 Years: A Survey的PPT版本,目标检测综述
  • 如今,人工智能(artificial intelligence)已经成为一个非常火热的领域,并且具有众多活跃的研究课题以及惠及生活方方面面的实际应用。这个领域目前正在以几何倍的速度增长着,并且未来也将持续健康发展...

    第一章 绪论

    1.1 研究背景与意义

    当人类首次发明计算机时,就已经开始思考如何让计算机变得智能。如今,人工智能(artificial intelligence)已经成为一个非常火热的领域,并且具有众多活跃的研究课题以及惠及生活方方面面的实际应用。这个领域目前正在以几何倍的速度增长着,并且未来也将持续健康发展。人们希望可以借助人工智能自动地处理一些主观的,非规范性的事物,如识别图像等。

    在人工智能发展初期,计算机很容易处理一些人类很难甚至是无法解决的问题,这些问题可以用一种形式化的数学规律来描述。人工智能真正面临的任务是那些很难用形式化符号描述的任务,当然对于人类来说很容易执行。举个例子,人们能够轻松识别对方说的话,也能够轻易识别图像中的物体。对于这类问题,计算机却无法给出自己的判断。

    计算机很擅长助理抽象和形式化的任务,但是人类却觉得这是很困难的脑力劳动。早在上个世纪,计算机就在国际象棋方面战胜了人类选手。但一直到最近几年,计算机才在语音和图像识别任务中达到人类一般水平。通常一个人的思维发育需要海量有关外界的知识。相当一部分领域的知识是主观的,并且很难用形式化的结构表示清楚。同人类一样,计算机也要获得同样数量级的知识才能表现得智能化。因此,对于研究人工智能领域的学者来说,关键的挑战就是如何将这些主观的、非形式化的知识教会计算机来学习。

    早期的研究项目有一些基于知识库方法,这种方法用近似于穷举的方式将知识用结构化的符号进行存储,然后设计相应的逻辑规则让计算机来理解这些符号的声明。可想而知,这样的工程耗时又费力,失败也是意料之中的。究其原因,这些结构化符号和声明是由人类主观选取的,人类尚无法构造出可以精确地描述世界的算法规则。

    近代一些研究学者针对这些比较主观的问题探讨一种解决方案。这种方案是设计一种方法让计算机从海量经验中学习,通过构建层次化的结构来拟合事物,并且层次之间通过相对简单的关系来定义。这种方案让计算机自主从海量知识中捕获经验,好处当然是避免了人类给计算机指定学习内容,因为人类无法完全知晓应学习的特征。科学家破天荒地提出层次化的概念,是借助了人脑工作的方式,从而使计算机借助于构建简单的模型来学习复杂的特征。我们称这种方法为深度学习(deep learning),是因为计算机最终构造出一张“深层次”的图,层与层之间通过简单的规则进行连接。

    人工智能系统需要具备从原始数据中拟合模型的能力,也就是自主学习的能力。我们通常称这种拟合的能力叫机器学习(machine learning)。利用机器学习,计算机能够拟合出关于真实事物的近似模型,并对相似事物做出判断。目前主流的机器学习的工作都是经过两个步骤,首先人工选定一个特征集合,然后将原始数据提交给模型,根据选定特征拟合出决策模型。

    现实中的事物极其复杂,人们很难深入到事物内部看清本质,很难知道哪些特征是重要的,甚至不知道什么才是真正的特征。研究生物神经网络带给我们的启示就是可以让机器自主发掘隐藏在知识中的规律,而不只是简单把知识灌输给计算机,这会让计算机像个顽皮的孩子一样学完就忘了。人类从原始数据中提取高度抽象的特征是极其困难的,而计算机通过模拟人脑就可以用较简单的模型来表示复杂概念,解决了特征提取这一关键问题。深度学习逐渐发展成以人工神经网络(artificial neural network)算法为核心的算法体系。

    人工神经网络为人工智能的研究带来了前所未有的期望。人工神经网络并不是近代的产物,上世纪50年代就验证了其可行性,为什么直到最近几年才被普遍接受?这也是研究深度网络算法的意义之所在。首先日俱增的数据量得以存储,出现了很多专门用于研究神经网络的数据集,这些数据集越来越大并且质量都很高,如图1-1所示。人们迫切希望有一种算法能从海量数据中发现事物的本质。其次是大规模的模型已经出现,经过近几十年的发展,模型中神经元的连接数已经达到了数十亿级,逐渐接近人类大脑的连接数。科学家预计这种增长势头将稳定持续到未来若干年。最后人工神经网络模型做决策的能力一直在提高,各大数据集上的准确率不断被刷新。深度学习发展迅速,但仍然很年轻,还有很多未知领域的研究和实际应用等着人类去发掘。
    在这里插入图片描述
    图1-1 与日俱增的数据量

    1.2 国内外发展现状

    从深度学习诞生以来,就吸引了很多公司和个人加入到这个领域的研究。最近几年关于深度学习方向的著作和应用如雨后春笋般涌现出来。阅读深度学习领域的著作,我们能够快速掌握该领域的热点和趋势。2015年发表在《自然》杂志上一篇名为《Deep Learning》的文章正式将深度学习推向高潮。随后一大批高校和科研单位投入进深度学习的研究中,并且硕果累累,新的观点层出不穷。

    国际上有很多大公司在做深度学习方面的研究。谷歌、微软、苹果、亚马逊等公司都积极投入到深度学习的研究中,大多一方面做研究项目,如“谷歌大脑”,另一方面做实际应用,如微软公司推出的聊天机器人“小冰”、苹果的智能语音助手“siri”等。

    我国关于深度学习的研究属于后起之秀,并且大有追赶国际的势头。一些大型科技公司都开始涉足这个领域。国内的阿里、腾讯、百度、华为等公司也加紧了这方面的研究。另外还有很多初创公司,将这项技术应用于生物、医疗、广告等各行各业。

    1.3 物体识别技术的发展

    1.3.1 传统物体识别的发展

    物体检测一直是计算机视觉领域经久不衰的研究方向。物体检测同样是一个主观的过程,对于人类来说相当简单。就连一个没受过任何训练的孩子通过观察图片中不同的颜色、区域等特征就能轻易定位出目标物体。但计算机收到这些RGB像素矩阵,不会直接得到目标(如行人、车辆等)的抽象概念,更不必说定位其位置了。再加上目标形态千差万别,目标和背景重合等问题,使得目标检测难上加难。

    传统的目标检测算法包括三个阶段,首先生成目标建议框,接着提取每个建议框中的特征,最后根据特征进行分类。以下是这三个阶段的具体过程:

    1,生成目标建议框。当输入一张原始图片时,计算机只认识每一个像素点,想要用方框框出目标的位置以及大小,最先想到的方法就是穷举建议框,具体的做法就是用滑动窗口扫描整个图像,还要通过缩放来进行多尺度滑窗。很显然这种方法计算量很大,很多都是重复的计算,并且效率极低。

    2,提取每个建议框中的特征。在传统的检测中,常见的HOG[20]算法对物体边缘使用直方图统计来进行编码,有较好的表达能力。然而传统特征设计需要人工指定,达不到可靠性的要求。

    3,分类器的设计。传统的分类器在机器学习领域非常多。具有代表性的SVM将分类间隔最大化来获得分类平面的支持向量,在指定特征的数据集上表现良好。

    然而传统的算法在预测精度和速度上都很不理想,随着深度学习算法在计算机视觉领域大放异彩,并逐渐成为霸主,传统识别算法渐渐暗淡。

    1.3.2 基于深度学习的物体识别技术发展

    自从深度神经网络算法首次在ImageNet数据集上大放异彩,物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出,数据集的准确率一再被刷新。实际上,深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类上明显的提升也带动了检测领域的快速发展。

    到目前为止,高性能的检测算法都基于深度学习。最早的R-CNN(Region-based CNN)[23]首次使用深度模型提取图像特征,以49.6%的准确率开创了检测算法的新时代。早期的物体检测,都以滑动窗口的方式生成目标建议框,这种方式本质上与穷举法无异。

    实际上,重复计算问题仍然没有得到解决。Fast R-CNN[25]的出现正是为了解决冗余计算这个问题。Fast R-CNN添加了一个简化的SPP[24]层,使得它的训练和测试过程能够合并在一起。

    Fast R-CNN[26]使用Selective Search来生成目标候选框,但是速度依然达不到实时的要求。Faster R-CNN则直接利用RPN(Region Proposal Networks)网络来生成目标候选框。RPN输入任意像素的原始图像,输出一批矩形区域,每个区域对应一个目标坐标信息和置信度。从R-CNN到Faster R-CNN,是一个合并的过程,它把传统检测的三个步骤整合到同一个深度网络模型中。

    基于回归算法的检测模型又将检测领域带到一个新的高度。其中以YOLO[28]和SSD[30]方法为代表的检测方法做到了真正意义上的实时效果。

    R-CNN到Faster R-CNN,再到SSD等是检测方法发展的主要轨迹。实际应用中还有许多特定物体的检测方法,如人脸检测、行人检测等。随着技术的发展,相信未来检测方法也会更加智能。

    1.4 本论文主要工作

    本论文主要研究了深度神经网络,尤其是卷积神经网络在图像物体检测领域的研究与应用。论文首先阐述了深度学习的背景和物体识别领域的国内外研究现状,以及物体识别技术的新旧交替。然后,论文详细介绍了深度网络的相关概念和技术要点。接着,论文研究并实现了基于DenseNet(密集连接网络)改进的卷积神经网络,取得更好的分类效果。之后,论文研究了物体检测算法SSD的结构和原理,并用密集连接策略对其进行改进,取得更好的识别效果。最后,利用前面的研究成果,实现了一个基于神经网络算法的物体识别系统,达到了实际应用的目的。

    1.5 本论文的结构安排

    第一章简要介绍了物体识别算法的研究意义和背景,国内外发展状况,以及从传统方法到基于深度学习算法的变更。研究人员逐渐舍弃了基于人工提取图像特征的传统算法,开始大范围使用卷积网络让网络自己来提取特征。最终提高算法在分类上的准确度,进而提高图像物体检测的准确性。

    第二章详细讲述了深度网络的基本原理(包括其结构形态、基本单元、工作模式等),以及对图像数据敏感的卷积网络。之后又介绍了一些经典的卷积网络结构和它们用到的优化方法。

    第三章详细介绍了基于DenseNet(密集连接网络)改进的卷积网络。论文分析了其结构和原理,实现了代码编写,并证明了与同类方法相比分类效果更优。

    第四章详细介绍了物体识别(也叫目标检测)的策略,即在卷积网络的基础上增加了候选框建议和边框回归的策略,重点介绍了SSD算法。然后将第三章介绍的改进版DenseNet应用到SSD算法上,使得网络的识别率更高,并且对小目标的识别效果更好。

    第五章实现了一个基于深度网络的物体识别系统。首先介绍了系统的详细设计(包括架构,流程等),然后使用已有的数据集训练模型。最后对测试结果进行阐述和分析。

    展开全文
  • 目标检测研究综述+LocNet

    千次阅读 2018-01-17 00:00:00
    北京 上海巡回站 | NVIDIA DLI深度学习培训2018年1月26/1月12日NVIDIA 深度学习学院 带你快速进入...01localization accuracy更准确的bounding box,提高IOU02目标检测的发展 1、传统的目标检测(滑动窗口的框架)(1
    北京 上海巡回站 | NVIDIA DLI深度学习培训
    2018年1月26/1月12日

    NVIDIA 深度学习学院 带你快速进入火热的DL领域
    阅读全文                          


    正文共3531个字,39张图,预计阅读时间9分钟。


    01

    localization accuracy



    更准确的bounding box,提高IOU


    02

    目标检测的发展


    1、传统的目标检测(滑动窗口的框架)


    (1).滑动窗口
    (2).提取特征(SIFT,HOG,LBP)
    (3).分类器(SVM)


    2、基于深度学习的目标检测


    d


    具体发展


    (1).R-CNN


    Motivation:目标检测进展缓慢,CNN在图片分类中取得重大成功


    Contribution:应用CNN将检测问题转化成分类问题


    RCNN


    (2).SPPNet


    Motivation:CNN要求输入图片尺寸固定


    Contribution:引入SPP层解除固定尺寸约束


    SPPNet


    (3).Fast R-CNN


    Motivation:候选框的重复计算问题


    Contribution: 加入RoI池化层、将BB回归融入网络


    Fast R-CNN


    (4).faster RCNN


    Motivation: Selective Search作为一个独立的操作,速度依然不够快。


    Contribution:抛弃了Selective Search,引入了RPN网络,使得区域提名、分类、回归一起共用卷积特征,从而得到了进一步的加速。


    faster rcnn


    (5).YOLO


    Motivation:先前提出的算法都是将检测问题转化为分类解决


    Contribution:将检测回归到回归方法,提高实时性能


    YOLO


    (6).SSD


    Motivation:yolo S×S的网格就是一个比较启发式的策略,难以检测小目标


    Contribution:借鉴了Faster R-CNN中的Anchor机制,使用了多尺度特征金字塔


    SSD


    03

    目标检测的几个名词


    (1). MAP(mean average precision)



    每一个类别都可以根据recall和precision绘制一条曲线,那么AP就是该曲线下的面积,而mAP是多个类别AP的平均值,这个值介于0到1之间,且越大越好。这个指标是目标检测算法最为重要的一个。


    (2).IOU



    绿色框是人工标注的groundtruth,红色框是目标检测算法最终给出的结果,显然绿色框对于飞机这个物体检测的更加准确(机翼机尾都全部包含在绿色框中),IOU正是表达这种bounding box和groundtruth的差异的指标。算法产生的bbox VS 人工标注的数据。



    IOU定义了两个bounding box的重叠度,可以说,当算法给出的框和人工标注的框差异很小时,或者说重叠度很大时,可以说算法产生的boundingbox就很准确。


    矩形框A、B的一个重合度IOU计算公式为:


    IOU=(A∩B)/(A∪B)


    (3). NMS(非极大值抑制)



    目标检测算法一般会给出目标很多的粗略结果,对一个目标成百上千的粗略结果都进行调整肯定是不可行的。那么我们就需要对这些粗略结果先进行一个大体的挑选。挑选出其中最具代表性的结果。再对这些挑选后的结果进行调整,这样可以加快算法效率。


    消除多余的框,找到最佳的bbox


    根据这些框的分类器类别分类概率做排序: A<B<C<D<E<F


    (1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;


    (2)假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。


    (3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。


    就这样一直重复,找到所有被保留下来的矩形框


    (4) 边界框回归(Bounding-box regression )



    由前面介绍的IOU指标可知,这里算法给出的红色框可以认为是检测失败的,因为它和绿色的groundtruth的 IOU值小于了0.5,也就是说重叠度不够。那么我们就需要对这个红色框进行微调。使得经过微调后的窗口跟Ground Truth 更接近 。



    红色的框 P 代表原始的Proposal
    **绿色的框 G **代表目标的 Ground Truth
    目标是:寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口 G~G~≈G



    04

    从CVPR2016看目标检测的发展趋势


    (a)检测精度
    如何提高检测精度的指标mAP?
    代表性的工作是ResNet、ION和HyperNet


    (b)识别效率
    如何提高检测速度?
    YOLO:这个工作在识别效率方面的优势很明显,可以做到每秒钟45帧图像,处理视频是完全没有问题的


    (c)定位精度
    如何产生更准确的bounding box? 如何逐步提高评价参数IOU?(Pascal VOC中,这个值为0.5)
    LocNet:抛弃boundingbox回归,利用概率模型(本文)

    从单纯的一律追求检测精度,到想方法加快检测结果,到最后追求更加准确的结果。侧面反映了目标检测研究的不断进步*。


    05

    LocNet:Improving localization accuracy for object detection


    1. background

    • localization accuracy 少人问津

    • PASCAL VOC  IOU=0.5 (object has been successfully detected)

    • Real life  higher localization accuracy (e.g. IoU> 0.7) is normally required

    • COCO detection challenge 把IOU值也作为了最终的评价指标(MAP+IOU)

    • 提高目标检测的IOU(而不仅是MAP)将会成为未来目标检测的主要挑战。

    • 传统的bbox回归:尝试直接通过回归的方式直接得到bbox的坐标,很难得到很准确的bbox。


    2. Contributions


    • 可以很方便的和现在最先进的目标检测系统结合

    • 提出了两种基于行列的概率模型解决定位准确率,而不是回归的方式,并与回归方式进行了
      对比

    • 对传统方法和最先进的方法不同iou下的map都有所提高

    • 未来可以完全取代bbox回归的方法


    3.两种概率模型



    黄色框是检测系统给出的,红色框是由黄色框扩大常数倍得到的search region,LOCNet会在这个搜索区域建立概率模型得到最终的定位区域蓝色框


    • 边界概率:
      计算该行或该列是目标边界的概率(所以,行列两个概率图各选两个极大值,即可得到目标边界)

    • in-out概率:
      计算目标在该行或该列的概率(所以,行列两个概率图分别选择最高并且最平滑的区域,即可得到目标的区域)


    4. detection pipeline



    输入的候选bounding box(使用selective search或者sliding windows获得),通过迭代的方法,获得更精确的box


    两个过程:


    1、Recognition model:

    输入候选box


    为每个box产生一个置信度


    2、Localization model:


    输入候选box


    调整box的边界生成新的候选box


    为降低算法复杂度,会参与一个后处理NMS操作。


    5. Model predictions


    输入的box,把它扩大一个因子的倍数,获取一个更大的区域R,区域R划分成M*M的格子

    In-Out probabilities


    产生两个概率,分别代表区域R的每一行或者列包含在bounding box中的概率


    ground truth box而言,对于边界内的行或列概率为1,否则为0


    **Border probabilities **





    产生4个概率,left (l), right (r), top (t) and bottom (b)


    ground truth box


    6. Network Architecture



    (1)对于输入的box,把它扩大一个因子的倍数,获取一个更大的区域R,把R投影到feature map中


    (2)经过一个类似于ROI pooling的层,输出固定大小的map


    (3)经过几个卷积层和ReLU激活之后,出现两个分支,分别对应两个向量。然后经过max pooling得到


    row、column对应的向量



    (4)经过FC层之后,使用sigmoid函数输出In –Out概率或者边界概率


    7.Loss function


    每行或列有两种可能(是或者不是),伯努利分布的模型,log对数损失函数假设样本服从伯努。


    利分布(0-1分布)


    logistic 回归常用的损失函数交叉熵

    In-Out


    Borders

    平衡因子,因为作为边界的行或列较少,所以增大他们的权重。


    8.results



    结果表明,与不同的检测系统结合,基于边界概率的模型在不同的IOU下都提高了mAP值,并且效果优于bbox回归。


    不同IOU下的MAP


    原文链接:https://www.jianshu.com/p/78f614799cf2


    查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

    www.leadai.org


    请关注人工智能LeadAI公众号,查看更多专业文章

    大家都在看

    LSTM模型在问答系统中的应用

    基于TensorFlow的神经网络解决用户流失概览问题

    最全常见算法工程师面试题目整理(一)

    最全常见算法工程师面试题目整理(二)

    TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

    装饰器 | Python高级编程

    今天不如来复习下Python基础


    展开全文
  • 三维目标识别、三维特征研究现状

    千次阅读 2019-11-04 16:08:14
    如图:深度设备获取场景点云,在场景点云中寻找目标点云,完成识别和定位后,返回R,T,指导机械臂完成抓取: 2、基于模型的识别 基于模型的识别假设利用3D对象模型通过评估存储在计算机中的模型与映射3D外部世界的...
  • 点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达作者丨高新波、莫梦竟成、汪海涛、冷佳旭转载自丨极市平台导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目...
  • 视频目标检测研究 1

    千次阅读 2019-03-25 20:58:52
    相比于传统的目标检测,视频的目标检测就显得不一样了,因为视频的特点是,在相邻帧中往往会包含图像内容很相似,视频的背景比较单一,这样对于一段视频来说,存在大量的冗余信息,好的检测器不仅要保证每一帧图像...
  • 目录 一、概述 二、通用目标检测方法 1、类不平衡问题 2、复杂背景 ...高分辨率遥感目标检测目前的研究成果主要分为两类,特定目标检测和一般目标检测。特定目标检测主要包括城市[1]、机场[2]、建筑[...
  • 目标检测算法近几年发展综述

    千次阅读 2020-02-12 23:37:40
    本文介绍了从13年到18年五年期间基于深度学习的目标检测算法发展情况。 原文链接:基于深度学习的目标检测算法近5年发展历史(综述)
  • 目标检测是计算机视觉中一个重要问题,在行人跟踪、车牌识别、无人驾驶等领域都具有重要的研究价值。近年来,随着深度学习对图像分类准确度的大幅度提高,基于深度学习的目标检测算法逐渐成为主流。梳理了目标检测...
  • 水下目标检测总结

    千次阅读 2020-10-29 16:31:38
    缺点对小目标检测准确度不高。 训练完后识别 python detect.py --weights ./runs/exp7/weights/best.pt --source D:/cmpt/flyai/test-A-image/000002.jpg --save weights指定的是训练权重的路径, source指定的是...
  • 3D点云目标检测综述

    千次阅读 2020-10-16 09:55:41
    本文是根据Deep Learning for 3D Point Clouds A Survey[1]和A Survey on 3D Object Detection Methods for Autonomous Driving Applications[2]两篇综述论文进行3D点云目标检测研究的讨论和总结。 数据类型 目前...
  • 转载:https://blog.csdn.net/wqwqqwqw1231/article/details/90693612
  • 介绍了基于跑道检测的机场识别、基于结构特征的机场识别和基于模板匹配的机场识别,并结合图像的类型和图像的分辨率对各识别方法进行分析和比较,讨论了机场识别的关键技术和应用难点,并提出了对该问题的思考和...
  • 随着卷积神经网络(Convolutional ...介绍了强监督目标检测算法对数据集标注精度要求高的现状。对基于弱监督学习的目标检测算法进行研究,按照不同的特征处理方法将该算法归为四类,并分析比较了各类算法的优缺点。
  • 基于候选区域的深度学习目标检测算法综述.pdf
  • 转 http://blog.csdn.net/tfygg/article/details/51760640?utm_source=itdadao&utm_medium=referral 运动目标检测研究现状
  • 基于深度卷积神经网络的图像目标检测算法现状研究综述.pdf
  • 目标检测是计算机视觉中一个重要问题,在行人跟踪、车牌识别、无人驾驶等领域都具有重要的研究价值。 近年来,随着深度学习对图像分类准确度的大幅度提高,基于深度学习的目标检测算法逐渐成为主流。梳理了目标 检测...
  • 基于深度学习的目标检测研究进展

    千次阅读 2016-11-13 20:09:34
    之前在深度学习大讲堂上看到了一篇师兄写的文章,膜拜师兄的同时转载一下。 前言 ...其实刚刚的这个过程就是目标检测目标检测就是“给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个
  • CVPR 2018 目标检测(Object Detection)

    万次阅读 2018-04-19 21:02:52
    Cascade R-CNN: Delving into High Quality Object Detection In object detection, an intersection over...然而, 小批量是深层神经网络训练的关键因素, 在目标检测方面还没有得到很好的研究。本文提出了一个Large ...
  • 关于运动目标检测的发展现状研究关于运动目标检测的发展现状研究关于运动目标检测的发展现状研究关于运动目标检测的发展现状研究
  • 人脸检测背景介绍和发展现状

    千次阅读 2018-08-09 16:05:17
    写这个系列的动机有两点:(第零是农药双排队友周末经常有事,没人一起玩,)第一,检测和跟踪之间有斩不断分不开的密切关系(官方CP),从应用角度和通用方法都非常相似相关,人脸检测问题可以为您提供更开阔的思路...
  • 点云深度学习研究现状与趋势

    千次阅读 2021-03-05 10:57:18
    其实还是不错的,除了分类任务,在点云目标检测中,也有不少论文采用了这种思路,比如自动驾驶场景的目标检测,如MV3D等,也是会把点云投影到三维空间。 基于体素的深度学习 代表作有Volumetric CNN 、VoxNet、...
  • 显著性检测研究现状

    千次阅读 2016-10-11 10:38:57
    关于显著度的研究是从生物研究发展而来,早期比较...显著度的获取方式主要有两种:自上而下,从高层语义入手,其实目标检测等等也可以归入这一类中;更普遍的是自下而上,从底层特征入手。直到现在,第二种自下而上的

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,048
精华内容 4,019
关键字:

目标检测研究现状