精华内容
下载资源
问答
  • R-CNN原理:   R-CNN遵循传统目标检测的思路,同样采取提取框,对每个框提取特征,图像分类,非极大值抑制等四个步骤,只不过在提取特征这一步将传统的特征换成了深度卷积网络提取的特征。  对于原始图像, 首先...
  • 视觉常识R-CNN(VC R-CNN) [NEW]:我们提供了VC R-CNN的培训代码和详细的自述文件。 :glowing_star: [NEW]:提供了在MSCOCO上预训练的VC功能。 试试看! :glowing_star: 该存储库包含官方的PyTorch实施和为论文...
  • 想学习R-CNN、Fast R-CNN、Faster R-CNN必看的5篇经典论文,详细介绍了算法的原理
  • 更快的R-CNN的更快的Pytorch实现 开头写 [05/29/2020]此回购协议成立于两年前,它是第一个支持多GPU训练的开源对象检测代码。 它整合了许多人的巨大努力。 但是,我们发现最近几年出现了许多高质量的回购协议,例如...
  • 一个小型的Mask R-CNN的植物图像分割的数据集 此数据集是直接对标于在Github上面的Mask R-CNN实例分割的开源项目,该项目的Github地址是 https://github.com/matterport/Mask_RCNN 如果喜欢请您给我的github加星,
  • 然后选取Mask R-CNN网络作为目标检测模型,对Mask R-CNN的基准网络D-ShuffleNet进行改进,提出了一种新的网络——Mask R-CNN-II网络,并在Mask R-CNN-II网络中应用迁移学习算法。通过实验验证了Mask R-CNN-II网络比Mask...
  • 基于Faster+R-CNN的人脸识别算法研究.pdf
  • Faster R-CNN Based Table Detection Combining Corner Locating
  • R-CNN系列三篇论文英文原文。从 R-CNN,SPP-net,到 Fast R-CNN,再到 Faster R-CNN,一路走 来,从流程上来说,基于深度学习的目标检测越来越精简;从精确度上来说,其 精确程度越来越高;从运行速度上来说,也...
  • 神经网络 在Python中从头开始逐步实现R-CNN
  • 【论文翻译】目标检测经典论文——Fast R-CNN论文原文与中文翻译 【论文翻译】目标检测经典论文——Fast R-CNN论文原文与中文翻译
  • 翻新解析R-CNN以进行准确的多重解析的正式实施( ) 在此存储库中,我们在Pytorch中发布了RP R-CNN代码。 RP R-CNN架构: RP R-CNN输出: 引用RP R-CNN 如果您使用RP R-CNN,请使用以下BibTeX条目。 @in...
  • 目标检测经典论文R-CNN最新版本(V5)论文原文及中文翻译
  • 精细分割R-CNN MICCAI2019接受了。 刘亚龙,李杰,王莹,王苗苗,李贤军,焦志成,杨建和高兴波。 “精巧分割R-CNN:两阶段卷积神经网络,用于早产儿点状白色物质病变分割。” 在医学图像计算和计算机辅助干预国际...
  • Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂,一石多鸟的多任务网络模型...

       Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂,一石多鸟的多任务网络模型。Mask R-CNN就是典型的代表。本篇大作的一作是何凯明,在该篇论文发表的时候,何凯明已经去了FaceBook。我们先来看一下,Mask R-CNN取得了何等的成果。



       大家可以看到,在实例分割Mask R-CNN框架中,还是主要完成了三件事情:

       1) 目标检测,直接在结果图上绘制了目标框(bounding box)。

       2) 目标分类,对于每一个目标,需要找到对应的类别(class),区分到底是人,是车,还是其他类别。

       3) 像素级目标分割,在每个目标中,需要在像素层面区分,什么是前景,什么是背景。

       可是,在解析Mask R-CNN之前,笔者不得不告诉大家一个事实,Mask R-CNN是继承于Faster R-CNN (2016)的,Mask R-CNN只是在Faster R-CNN上面加了一个Mask Prediction Branch (Mask 预测分支),并且改良了ROI Pooling,提出了ROI Align。从统计数据来看,"Faster R-CNN"在Mask R-CNN论文的前三章中出现了二十余次,因此,如果不了解Ross Girshick和何凯明之前的工作,是很难弄懂Mask R-CNN的。所以,笔者在解析Mask R-CNN之前,先给大家分析一下Faster R-CNN。

       在给大家解析Faster R-CNN之前,笔者又要告诉大家,Faster R-CNN是继承于Fast R-CNN (2015),Fast R-CNN继承于R-CNN (2014)。因此,索性破釜沉舟,在本篇博文中,笔者就按照R-CNN, Fast R-CNN,Faster R-CNN再到Mask R-CNN的发展顺序全部解析。

       首先时间回到了2014年,在2014年,正是深度学习如火如荼的发展的第三年。在CVPR 2014年中Ross Girshick提出的R-CNN中,使用到了卷积神经网络来进行目标检测。下面笔者就来概述一下R-CNN是如何采用卷积神经网络进行目标检测的工作。


       首先模型输入为一张图片,然后在图片上提出了约2000个待检测区域,然后这2000个待检测区域一个一个地(串联方式)通过卷积神经网络提取特征,然后这些被提取的特征通过一个支持向量机(SVM)进行分类,得到物体的类别,并通过一个bounding box regression调整目标包围框的大小。下面,笔者简要概述一下R-CNN是怎么实现以上步骤的。

       首先在第一步提取2000个待检测区域的时候,是通过一个2012年提出的方法,叫做selective search。简单来说就是通过一些传统图像处理方法将图像分成若干块,然后通过一个SVM将属于同一目标的若干块拿出来。selective search的核心是一个SVM,架构如下所示:


       然后在第二步进行特征提取的时候,Ross直接借助了当时深度学习的最新成果AlexNet (2012)。那么,该网络是如何训练的呢?是直接在ImageNet上面训练的,也就是说,使用图像分类数据集训练了一个仅仅用于提取特征的网络。

       在第三步进行对目标的时候,使用了一个支持向量机(SVM),在训练这个支持向量机的时候,结合目标的标签(类别)与包围框的大小进行训练,因此,该支持向量机也是被单独训练的。

       在2014年R-CNN横空出世的时候,颠覆了以往的目标检测方案,精度大大提升。对于R-CNN的贡献,可以主要分为两个方面:

       1) 使用了卷积神经网络进行特征提取

       2) 使用bounding box regression进行目标包围框的修正

       但是,我们来看一下,R-CNN有什么问题:

       1) 耗时的selective search,对一帧图像,需要花费2s。

       2) 耗时的串行式CNN前向传播,对于每一个RoI,都需要经过一个AlexNet提特征,为所有的RoI提特征大约花费47s。

       3) 三个模块是分别训练的,并且在训练的时候,对于存储空间的消耗很大。

       那么,面对这种情势,Ross在2015年提出的Fast R-CNN进行了改进,下面我们来概述一下Fast R-CNN的解决方案:


       首先还是采用selective search提取2000个候选框,然后,使用一个神经网络对全图进行特征提取。接着,使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征,再通过全连接层(FC Layer)进行分类与包围框的修正。Fast R-CNN的贡献可以主要分为两个方面:

       1) 取代R-CNN的串行特征提取方式,直接采用一个神经网络对全图提取特征(这也是为什么需要RoI Pooling的原因)。

       2) 除了selective search,其他部分都可以合在一起训练。

       可是,Fast R-CNN也有缺点,体现在耗时的selective search还是依旧存在。那么,如何改良这个缺陷呢?发表于2016年的Faster R-CNN进行了如下创新:

       取代selective search,直接通过一个Region Proposal Network (RPN)生成待检测区域,这么做,在生成RoI区域的时候,时间也就从2s缩减到了10ms。我们来看一下Faster R-CNN是怎么做的。


       首先使用共享的卷积层为全图提取特征,然后将得到的feature maps送入RPN,RPN生成待检测框(指定RoI的位置)并对RoI的包围框进行第一次修正。之后就是Fast R-CNN的架构了,RoI Pooling Layer根据RPN的输出在feature map上面选取每个RoI对应的特征,并将维度置为定值。最后,使用全连接层(FC Layer)对框进行分类,并且进行目标包围框的第二次修正。尤其注意的是,Faster R-CNN真正实现了端到端的训练(end-to-end training)

       要理解Mask R-CNN,只有先理解Faster R-CNN。因此,笔者根据Faster R-CNN的架构(Faster R-CNN的ZF model的train.prototxt),画了一个结构图,如下所示:


       如上图所示,Faster R-CNN的结构主要分为三大部分,第一部分是共享的卷积层-backbone,第二部分是候选区域生成网络-RPN,第三部分是对候选区域进行分类的网络-classifier。其中,RPN与classifier部分均对目标框有修正。classifier部分是原原本本继承的Fast R-CNN结构。我们下面来简单看看Faster R-CNN的各个模块。

       首先来看看RPN的工作原理:


       简单地说,RPN依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的目标框(文中叫做anchor)。这9种初始anchor包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1)。示意图如下所示:


       由于共享特征图的大小约为40×60,RPN生成的初始anchor的总数约为20000个(40×60×9)。对于生成的anchor,RPN要做的事情有两个,第一个是判断anchor到底是前景还是背景,意思就是判断这个anchor到底有没有覆盖目标,第二个是为属于前景的anchor进行第一次坐标修正。对于前一个问题,Faster R-CNN的做法是使用SoftmaxLoss直接训练,在训练的时候排除掉了超越图像边界的anchor;对于后一个问题,采用SmoothL1Loss进行训练。那么,RPN怎么实现呢?这个问题通过RPN的本质很好求解,RPN的本质是一个树状结构,树干是一个3×3的卷积层,树枝是两个1×1的卷积层,第一个1×1的卷积层解决了前后景的输出,第二个1×1的卷积层解决了边框修正的输出。来看看在代码中是怎么做的:


       从如上代码中可以看到,对于RPN输出的特征图中的每一个点,一个1×1的卷积层输出了18个值,因为是每一个点对应9个anchor,每个anchor有一个前景分数和一个背景分数,所以9×2=18。另一个1×1的卷积层输出了36个值,因为是每一个点对应9个anchor,每个anchor对应了4个修正坐标的值,所以9×4=36。那么,要得到这些值,RPN网络需要训练。在训练的时候,就需要对应的标签。那么,如何判定一个anchor是前景还是背景呢?文中做出了如下定义:如果一个anchor与ground truth的IoU在0.7以上,那这个anchor就算前景(positive)。类似地,如果这个anchor与ground truth的IoU在0.3以下,那么这个anchor就算背景(negative)。在作者进行RPN网络训练的时候,只使用了上述两类anchor,与ground truth的IoU介于0.3和0.7的anchor没有使用。在训练anchor属于前景与背景的时候,是在一张图中,随机抽取了128个前景anchor与128个背景anchor。

       在上一段中描述了前景与背景分类的训练方法,本段描述anchor边框修正的训练方法。边框修正主要由4个值完成,tx,ty,th,tw。这四个值的意思是修正后的框在anchor的x和y方向上做出平移(由tx和ty决定),并且长宽各自放大一定的倍数(由th和ty决定)。那么,如何训练网络参数得到这四个值呢?Fast R-CNN给出了答案,采用SmoothL1loss进行训练,具体可以描述为:


       到这里有个问题,就是不是对于所有的anchor,都需要进行anchor包围框修正的参数训练,只是对positive的anchors有这一步。因此,在训练RPN的时候,只有对128个随机抽取的positive anchors有这一步训练。因此,训练RPN的损失函数可以写成:


       在这里Lreg就是上面的Lloc,λ被设置为10,Ncls为256,Nreg为2400。这样设置的话,RPN的两部分loss值能保持平衡。

       到这里RPN就解析完毕了,下面我们来看看后面的classifier,但是在介绍classifier之前,我们先来看看RoI Pooling到底做了什么?

       首先第一个问题是为什么需要RoI Pooling?答案是在Fast R-CNN中,特征被共享卷积层一次性提取。因此,对于每个RoI而言,需要从共享卷积层上摘取对应的特征,并且送入全连接层进行分类。因此,RoI Pooling主要做了两件事,第一件是为每个RoI选取对应的特征,第二件事是为了满足全连接层的输入需求,将每个RoI对应的特征的维度转化成某个定值。RoI Pooling示意图如下所示:


       如上图所示,对于每一个RoI,RoI Pooling Layer将其对应的特征从共享卷积层上拿出来,并转化成一样的大小(6×6)。

       在RoI Pooling Layer之后,就是Fast R-CNN的分类器和RoI边框修正训练。分类器主要是分这个提取的RoI具体是什么类别(人,车,马等等),一共C+1类(包含一类背景)。RoI边框修正和RPN中的anchor边框修正原理一样,同样也是SmoothL1 Loss,值得注意的是,RoI边框修正也是对于非背景的RoI进行修正,对于类别标签为背景的RoI,则不进行RoI边框修正的参数训练。对于分类器和RoI边框修正的训练,可以公式描述如下:


       上式中u>=1表示RoI边框修正是对于非背景的RoI而言的,实验中,上式的λ取1。

       在训练分类器和RoI边框修正时,步骤如下所示:

       1) 首先通过RPN生成约20000个anchor(40×60×9)。

       2) 对20000个anchor进行第一次边框修正,得到修订边框后的proposal。

       3) 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。

       4) 忽略掉长或者宽太小的proposal。

       5) 将所有proposal按照前景分数从高到低排序,选取前12000个proposal。

       6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。

       7) 针对上一步剩下的proposal,选取前2000个proposal进行分类和第二次边框修正。

       总的来说,Faster R-CNN的loss分两大块,第一大块是训练RPN的loss(包含一个SoftmaxLoss和SmoothL1Loss),第二大块是训练Fast R-CNN中分类器的loss(包含一个SoftmaxLoss和SmoothL1Loss),Faster R-CNN的总的loss函数描述如下:


       然后,对于Faster R-CNN的训练方式有三种,可以被描述如下:

       1) RPN和Fast R-CNN交替训练,这种方式也是作者采用的方式。

       2) 近似联合RPN和Fast R-CNN的训练,在训练时忽略掉了RoI边框修正的误差,也就是说只对anchor做了边框修订,这也是为什么叫"近似联合"的原因。

       3) 联合RPN和Fast R-CNN的训练。

       对于作者采用的交替训练的方式,步骤如下:

       1) 使用在ImageNet上预训练的模型初始化共享卷积层并训练RPN

       2) 使用上一步得到的RPN参数生成RoI proposal。再使用ImageNet上预训练的模型初始化共享卷积层,训练Fast R-CNN部分(分类器和RoI边框修订)。

       3) 将训练后的共享卷积层参数固定,同时将Fast R-CNN的参数固定,训练RPN。(从这一步开始,共享卷积层的参数真正被两大块网络共享)

       4) 同样将共享卷积层参数固定,并将RPN的参数固定,训练Fast R-CNN部分。

       Faster R-CNN的测试流程和训练流程挺相似,描述如下:

       1) 首先通过RPN生成约20000个anchor(40×60×9)通过RPN

       2) 对20000个anchor进行第一次边框修正,得到修订边框后的proposal。

       3) 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。

       4) 忽略掉长或者宽太小的proposal。

       5) 将所有proposal按照前景分数从高到低排序,选取前6000个proposal。

       6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。

       7) 针对上一步剩下的proposal,选取前300个proposal进行分类和第二次边框修正。

       到这里,Faster R-CNN就介绍完毕了。接下来 到了Mask R-CNN,我们来看看RoI Pooling出了什么问题:

       问题1:从输入图上的RoI到特征图上的RoI feature,RoI Pooling是直接通过四舍五入取整得到的结果。

       这一点可以在代码中印证:


       可以看到直接用round取的值,这样会带来什么坏处呢?就是RoI Pooling过后的得到的输出可能和原图像上的RoI对不上,如下图所示:


       右图中蓝色部分表示包含了轿车主体的的信息的方格,RoI Pooling Layer的四舍五入取整操作导致其进行了偏移。

       问题2:再将每个RoI对应的特征转化为固定大小的维度时,又采用了取整操作。在这里笔者举例讲解一下RoI Pooling的操作:


       在从RoI得到对应的特征图时,进行了问题1描述的取整,在得到特征图后,如何得到一个6×6的全连接层的输入呢?RoI Pooling这样做:将RoI对应的特征图分成6×6块,然后直接从每块中找到最大值。在上图中的例子中,比如原图上的的RoI大小是280×480,得到对应的特征图是18×30。将特征图分成6块,每块大小是3×5,然后在每一块中分别选择最大值放入6×6的对应区域中。在将特征图分块的时候,又用到了取整,这点同样可以在代码中得到佐证:


       这种取整操作(在Mask R-CNN中被称为quantization)对RoI分类影响不大,可是对逐像素的预测目标是有害的,因为对每个RoI取得的特征并没有与RoI对齐。因此,Mask R-CNN对RoI Pooling做了改进并提出了RoI Align。

       RoI Align的主要创新点是,针对问题1,不再进行取整操作。针对问题2,使用双线性插值来更精确地找到每个块对应的特征。总的来说,RoI Align的作用主要就是剔除了RoI Pooling的取整操作,并且使得为每个RoI取得的特征能够更好地对齐原图上的RoI区域。

       下图阐述了Mask R-CNN的Mask branch:


       在Mask R-CNN中的RoI Align之后有一个"head"部分,主要作用是将RoI Align的输出维度扩大,这样在预测Mask时会更加精确。在Mask Branch的训练环节,作者没有采用FCN式的SoftmaxLoss,反而是输出了K个Mask预测图(为每一个类都输出一张),并采用average binary cross-entropy loss训练,当然在训练Mask branch的时候,输出的K个特征图中,也只是对应ground truth类别的那一个特征图对Mask loss有贡献。

       Mask R-CNN的训练损失函数可以描述为:


       在上式中,Lbox和Lmask都是对positive RoI才会起作用的。

       在Mask R-CNN中,相较于Faster R-CNN还有些略微的调整,比如positive RoI被定义成了与Ground truth的IoU大于0.5的(Faster R-CNN中是0.7)。太过于细节的东西本篇博文不再赘述,详情参见Mask R-CNN中的Implementation Details。

       到这里再将Mask R-CNN和FCIS做个比较,首先两者的相同点是均继承了Faster R-CNN的RPN部分不同点是对于FCIS,预测mask和分类是共享的参数。而Mask R-CNN则是各玩各的,两个任务各自有各自的可训练参数。对于这一点,Mask R-CNN论文里还专门作了比较,显示对于预测mask和分类如果使用共享的特征图对于某些重叠目标可能会出现问题。


       Mask R-CNN的实验取得了很好的效果,达到甚至超过了state-of-the-art的水平。不过训练代价也是相当大的,需要8块GPU联合训练。


       Mask R-CNN的实验非常详细,还做了很多对比实验,比如说改换网络深度,在训练mask branch时的误差种类,将RoI Align同RoI Pooling和RoI Warping进行比较,改变预测mask的方式(FCN和全连接层)等,详情请参见Mask R-CNN的实验部分。





       到这里Mask R-CNN介绍就接近尾声了,笔者还想说一些自己的思考与感想:

       1) 可继承工作的充分体现。大家看到Mask R-CNN的结构相当复杂,实际上是继承了大量之前的工作。首先bounding box regression在2014年的R-CNN中就出现过。Mask R-CNN的主要创新点RoI Align改良于RoI Pooling,而RoI Pooling是在2015年的Fast R-CNN中提出的。对于RPN的应用,更是直接继承了2016年的Faster R-CNN。值得一提的是,上述的每一篇文章,都是颠覆目标检测领域计算架构的杰出作品。

       2)集成的工作。还是那句老话,到了2017-2018年,随着深度学习的高速发展,单任务模型已经逐渐被抛弃。取而代之的是更集成,更综合,更强大的多任务模型。Mask R-CNN就是其中的代表。

       3)引领潮流。再次向何凯明和Ross Girshick致敬,他们的实力引领了目标检测领域的发展,因此无论他们在哪,无论是在微软还是FaceBook,他们的idea和作品都被非常多的人应用或者继承。

       欢迎阅读笔者后续博客,各位读者朋友的支持与鼓励是我最大的动力!


    written by jiong

    鸿爪踏雪泥,还是来得及。

    展开全文
  • 深度学习进行物体检测的鼻祖论文,学习目标检测的经典文献,中英文对照翻译。。。
  • R-CNN、Fast R-CNN、Faster R-CNN、SSD、YOLO必看经典论文十篇(强烈推荐)
  • 【计算机视觉—目标检测篇】持续更新,R-CNN系列、SSD、YOLO系列等等。理论+实战,手把手教学,小白也可轻松上手! ...

    写在前面:大家好!我是【AI 菌】,一枚爱弹吉他的程序员。我热爱AI、热爱分享、热爱开源! 这博客是我对学习的一点总结与思考。如果您也对 深度学习、机器视觉、算法、Python、C++ 感兴趣,可以关注我的动态,我们一起学习,一起进步~
    我的博客地址为:【AI 菌】的博客
    我的Github项目地址是:【AI 菌】的Github

    在这里插入图片描述


    综述

    在这里插入图片描述我们常说的R-CNN系列,一共包含三个版本:R-CNN、Fast R-CNN、Faster R-CNN。从命名上看,R是Region的缩写,CNN指我们常说的卷积神经网络。那么R-CNN其实就是使用推荐区域的卷积神经网络。由Fast、Faster很容易知道,版本的更迭解决的是一个实时性的问题

    R-CNN算法最早在2013年被提出,它的出现打开了运用深度学习进行目标检测的大门,从此之后,目标检测的精准度与实时性被不断刷新。R-CNN系列算法自提出之际,就非常引人注目,以至于在之后的很多经典算法中,如SSD、YOLO系列、Mask R-CNN中都能看到它的影子。

    学习R-CNN系列算法不仅能够让我们了解到基础的目标检测算法的思路,而且能够让学习者更加轻松地掌握SSD、YOLO系列、Mask R-CNN等算法。因为相比一些one-stage 的目标检测算法,Faster R-CNN作为two-stage的算法理解起来并不算简单。正是如此,当我们掌握了R-CNN系列算法后,再去学习经典的one-stage算法,就会变得异常简单。

    R-CNN、Fast R-CNN采用的还是传统的SS算法生成推荐区域,计算非常耗时,达不到实时检测的效果。直到Faster R-CNN才使用RPN代替了原来的SS算法,才使得目标检测的时间大大缩短,达到实时性的效果。因此,本篇博客先会对R-CNN、Fast R-CNN进行一个简明扼要地讲解,大家只需了解算法的思路和演进过程即可;之后,会着重讲解R-CNN 系列的灵魂之作——Faster R-CNN,而这部分才是大家需要着重了解的

    一、R-CNN

    2013年11月,Ross Girshick等人最早提出了R-CNN算法,打开了利用深度学习进行目标检测的大门。在当时来说,R-CNN算法的目标检测水平超群,比传统的目标检测方法有了很大提升。实验表明,R-CNN算法在PASCAL VOC数据集取得了很好的成绩,这种算法的平均精确度比之前在VOC2012数据集上的最好测试效果还要高30%。并且,由该算法提出的论文《Rich feature hierarchies for accurate object detection and semantic segmentation》获得了世界计算机视觉顶会CVPR2014的最佳论文奖

    在这里插入图片描述
    如上图所示,R-CNN目标检测算法流程主要分四个步骤:

    1. 采用SS(Selective Search)方法,使一张图片生成1000~2000个候选区域(region proposals)。
    2. 对每一个候选区域,都使用深度神经网络(AlexNet)提取特征,得到1*4096的特征向量。
    3. 将每一个特征向量送入每一类的SVM分类器,判断是否属于该类。
    4. 对已分类的推荐框进行线性回归,对这些框进行精细地调整,得到更加准确的边界框坐标。

    R-CNN算法的检测效果很好,但是检测速度很慢,因此总体效率不高。其主要原因在于:

    • 提取特征操作非常冗余。检测时,需要将每个推荐区域都送入训练好的模型(AlexNet)进行前向传播,因此每张图片大约要进行1000~2000次前向传播。
    • 训练速度慢,过程繁琐。要单独分别训练三个不同的模型:CNN用来提取图像特征、SVM分类器用来预测类别、回归器精细修正建议框的位置。分开训练,耗时耗力。
    • 使用Selective Search算法生成推荐区域,这个过程大约耗时2s,也是它不能达到实时性检测的一个重要原因。

    二、Fast R-CNN

    2015年,Ross Girshick等人在R-CNN的基础上进行了改进,解决了上述影响R-CNN效率的前两个问题。与R-CNN相比,训练速度快了9倍;测试速度快了213倍;在Pascal VOC数据集上,准确率从62%提升到了66%。

    在这里插入图片描述

    如上图所示,Fast R-CNN算法的流程主要分为下面三个步骤:

    • 依然先使用SS(Selective Search)方法,使一张图片生成1000~2000个候选区域。
    • 将图像输入到一个CNN(VGG-16)得到相应的特征图,然后将已经生成的候选框投影到特征图上获得相应的特征矩阵。
    • 将每个特征矩阵通过ROI Pooling层缩放到7*7大小,然后将特征图展平,在通过一系列全连接层得到预测的类别信息和目标边界框信息。

    Fast R-CNN的改进点:

    • ROI Pooling层。这个方法是针对R-CNN的第一个问题提出来的,用来解决提取特征操作冗余的问题,避免每个推荐区域都要送入CNN进行前向计算。核心思路是:将图像只输入CNN提取特征,只进行一次前向计算。得到的特征图由全部推荐区域共享。然后再将推荐区域(SS算法得到)投影到特征图上,获得每个推荐区域对应的特征图区域。最后使用ROI Pooling层将每个特征图区域下采样到7*7大小。
    • 将原来三个模型整合到一个网络,易与训练。R-CNN算法使用三个不同的模型,需要分别训练,训练过程非常复杂。在Fast R-CNN中,直接将CNN、分类器、边界框回归器整合到一个网络,便于训练,极大地提高了训练的速度。

    Fast R-CNN的瓶颈:

    虽然Fast R-CNN算法在检测速度和精确度上了很大的提升。但是它仍然不能满足实时目标检测,最大的原因在于:采用SS算法生成推荐区域的方法很耗时,处理每张图像大约需要消耗2秒,大大限制了目标检测的速度。

    三、Faster R-CNN

    2015年,由任少卿、何凯明、Ross Girshick、孙剑组成的微软研究团队,提出了Region Proposal Networks取代了原来的SS算法,几乎不消耗计算时间,使得生成推荐区域过程变得非常高效,解决了Fast R-CNN的瓶颈问题

    Faster R-CNN算法将Region Proposal Networks与Fast R-CNN进一步合并为一个单个网络。当采用非常深的VGG-16模型作为骨干网络时,基于该方法的检测系统在GPU上的帧速率为5fps,基本达到实时检测的水平。同时在PASCAL VOC2007、2012和MS COCO数据集上,其检测精度也达到了最好的水平。

    在这里插入图片描述
    如上图所示,Faster R-CNN算法流程主要有以下4个步骤:

    1. Conv layers。首先将图像输入到CNN(VGG-16)提取图像特征,得到的feature maps 将被共享用于后面的RPN和ROI Pooling。
    2. Region Proposal Networks。RPN用于生成推荐区域。该网络通过softmax判断anchors属于positive还是negative,再利用边界框回归修正anchors获得精确的推荐框proposals。
    3. ROI Pooling。该层以feature maps和proposals同时作为输入,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
    4. Classifer。将proposal feature maps输入全连接层与预测proposals的类别;同时再次进行边界框回归,获得检测框最终的精确位置。

    相比Fast-RCNN,改进后的Faster R-CNN算法不仅速度上很很大提升,基本可以达到实时的检测帧率;检测精度也有所提高

    Faster R-CNN在 PASCAL VOC 数据集上的检测效果:
    在这里插入图片描述

    Faster R-CNN在 MS COCO 数据集上的检测效果:
    在这里插入图片描述
    想要深入了解Faster R-CNN算法的盆友,可以参见我的另一篇博文:Faster R-CNN论文详解

    本博文会持续更新,敬请期待。。。

    展开全文
  • matlab精度检验代码使用Faster-R-CNN的多脸检测 使用更快的R-CNN进行多人脸识别 抽象的 人脸检测在监视,安全性,人群规模估计到社交网络等领域具有广泛的应用。挑战在于创建一个与闪电条件,姿势,配件和遮挡无关的...
  • 今天介绍的 R-CNN 系列算法,都基于深度学习,它们把目标检测大致分为四部分完成: 1、先从整幅图里选取最可能有物体的一些候选区域,这些区域一般用长方形框表示,这一步能缩小寻找范围 2、既然用到深度学习,那就...

    http://imgtec.eetrend.com/blog/2020/100049323.html

    一、设计思路

    今天介绍的 R-CNN 系列算法,都基于深度学习,它们把目标检测大致分为四部分完成:

    1、先从整幅图里选取最可能有物体的一些候选区域,这些区域一般用长方形框表示,这一步能缩小寻找范围
    2、既然用到深度学习,那就需要学习图像的深层特征,这里我们只关心上一步选出区域的图像特征,提取的特征可用于分类回归任务
    3、分类就是常规的分类方法,不过这里是多分类
    4、第一步给的候选框经过筛选后,不一定精准,还需要根据 ground truth 作调整
    分类和定位任务可以同时训练,也可以依次训练
    在这里插入图片描述

    二、名词解释

    Selective Search:一种产生候选区的方法,没有用到深度学习,需要在 CPU 上训练,比较耗时,简称 SS。
    Region proposal:直译为成区域建议(有些别扭),就是生成候选区的过程,类似于比赛前的海选,其中的 region 是矩形区。方法有 Selective Search,论文中产生 2000 个候选区,下面简称这部分产生的区域为候选区。
    Bounding box:直译为边界框,就是最后输出定位的那个矩形框。严格来说,分为人工标注的 ground truth 和 predicted 两种类型。有时候简称为 BB。
    Region of interest(ROI):感兴趣的区域,有时候论文把 region proposal 产生的区域叫 ROI。
    Non maximum suppression(NMS):非极大值抑制,简称为 NMS 算法,其思想是搜素局部最大值,抑制极大值,在目标检测的目的是输出最合适的边界框。
    Fully connected layer:全连接层,我下面简写为 FC 层。
    Feature map:卷积层的输出,可翻译为特征图。

    三、比较说明

    下面我将从问题背景,创新点,框架模块,训练流程,检测流程五个方面比较介绍他们的发展过程。我更侧重它们的宏观思路,而没有介绍具体细节,也没有涉及实验和代码。

    四、发展历程

    在这里插入图片描述
    可以看出,他们的发展是从训练分散到统一的过程,开始还需要借助外部的模块 SS,后来可以构造一个联合框架。

    从训练的角度,开始的训练是多阶段的(multi-satge:生成候选区→提取特征→分类→定位),后来的训练中,提取特征+分类+定位一次性完成

    从是否需要 region proposal 的角度,它们都是需要的,是 region based 方法,统称为 ==two-stage ==方法,而其他方法如 YOLO 不需要这个阶段,是 one-stage 方法。

    1. R-CNN

    问题背景——
    传统视觉特征 SIFT 和 HOG 用于检测系统,性能提升缓慢
    CNN 用于分类效果好,能否提升检测性能

    创新点——
    把 CNN 用于生成 region proposal,用 CNN 提取的特征代替 SIFT 和 HOG 这些传统特征;
    采用大样本下有监督预训练+小样本微调的方式解决小样本难以训练甚至过拟合等问题。

    框架模块——
    生成候选区模块
    提取特征的 CNN 模块
    用于分类的 SVM 模块
    修正边界框模块

    训练流程——
    有监督的预训练:在大型辅助数据集(ILSVRC2012 classification)上进行 CNN 预训练,得到一个分类器(CNN)
    特定领域的微调:根据检测任务微调 CNN,把最后 1000 维的分类层替换成 N+1 维的分类层(N 是检测数据集的类别数,1 是背景)
    SVM 分类器训练:由于SVM是二分类器,需要为每个类别训练单独的SVM。对于某一类,一片区域包含该类物体为正样本,不包含为负样本。如何判断是否为正?设定 IOU 阈值,低于阈值的为负样本(这里没搞懂,为什么只说低于阈值的是负样本,那正样本就得是ground truth)
    边界框回归训练:提高定位精度

    检测流程——
    输入一张多目标图像
    采用 selective search 算法提取约 2000 个建议框,对区域 / 框变形
    处理后的区域/框输入 CNN 提取特征
    区域进行分类,用非极大抑制提取分数最高(最可能的类)的框
    进行回归修正,选择分数最高的框
    (为什么区域所得特征是从FC7获取,而框的线性函数是从conv5获得)

    2. Fast R-CNN

    问题背景——
    R-CNN 的训练是多阶段的(multi-stage):预训练 CNN→针对检测微调→训练分类器→训练边界框回归器
    R-CNN 的时间空间消耗大:为了训练 SVM 分类器和边界框回归器,每个区域的特征都要提取出来,并且存到磁盘上
    R-CNN 检测:检测时需要提取每个区域的特征,但生成的区域有重叠,所以计算也有重叠。

    创新点——
    与 R-CNN、SPPnet 相比有更高的检测精度(mAP)
    训练是单阶段的(single-stage),损失是多任务的(multi-task),指把预训练的 CNN 针对检测任务微调后,分类和回归任务能一起完成,这种多任务损失即结合了分类损失和定位损失的方法,大大提升了模型准确度。
    训练可以更新所有网络层
    特征缓存不需要磁盘存储

    框架模块——
    与R-CNN 模块大致相同,相比 R-CNN 模块有一些改变。
    网络输入:图片组以及每幅图片的一组 RoI
    CNN 模块:最后一个最大池化层由 RoI 池化层代替
    分类模块:Fast R-CNN 使用 softmax classifier,R-CNN 和 SPPnet 使用 one-vs-rest linear SVMs。
    分类和定位:CNN 网络的最后一个全连接层和 softmax 替换为两个同级层R-CNN 是独立的两个模块,需要单独训练

    训练流程——
    有监督的预训练,得到 CNN
    特定领域的微调:首先改变模型,就是上面提到的输入改变,CNN 的 ROI 池化引入,还有分类回归模块的改变;
    接着,输入图片和区域后,就能实现端到端的多任务训练,不需要单独训练分类和回归模块。

    检测流程——
    输入一张多目标图像
    采用 selective search 得到的预选区域
    用卷积层和池化层处理这幅图片,生成 feature map;
    对于每个候选区域,用一个 RoI 池化层从上一层的 feature map 中提取定长的特征向量;
    同时完成分类回归任务:每个 feature vector 送入一系列全连接层,这些全连接层最后会分支成 two sibling output layers: 一个可以在K个对象类以及一个笼统的“背景”类上生成 softmax 概率估计;另一层为 K 个对象类中的每一个输出四个实数值(编码精确的边界框位置)。

    注:ROI 池化

    因为 Fast R-CNN 使用全连接层,所以我们应用 ROI 池化将不同大小的 ROI 转换为固定大小。

    为简洁起见,我们先将 8×8 特征图转换为预定义的 2×2 大小。

    下图左上角:特征图。
    右上角:将 ROI(蓝色区域)与特征图重叠。
    左下角:将 ROI 拆分为目标维度。例如,对于 2×2 目标,我们将 ROI 分割为 4 个大小相似或相等的部分。
    右下角:找到每个部分的最大值,得到变换后的特征图。
    在这里插入图片描述输入特征图(左上),输出特征图(右下),ROI (右上,蓝色框)。

    按上述步骤得到一个 2×2 的特征图块,可以馈送至分类器和边界框回归器中。

    3. Faster R-CNN

    问题背景——
    继Fast R-CNN后,在CPU上实现的区域建议算法 Selective Search、EdgeBoxes 等成了物体检测速度提升上的最大瓶颈。

    创新点——
    设计 Region Proposal Networks(RPN),利用 CNN 卷积操作后的特征图生成候选区,代替了Selective Search、EdgeBoxes 等方法,速度上提升明显;
    训练 Region Proposal Networks 与检测网络(Fast R-CNN)共享卷积层,大幅提高网络的检测速度。

    框架模块——
    PRN + Fast R-CNN
    Fast R-CNN 生成候选区域需要外部的 SS 模块,而 Faster R-CNN 是一个统一的模块,region proposal 部分由 PRN 完成

    训练流程——
    四步交替训练:
    **训练PRN:**使用 ImageNet-pre-trained model 初始化,针对 region proposal 任务微调
    **用第一步得到的 PRN 训练 Fast R-CNN:**其中 Fast R-CNN 也用 ImageNet-pre-trained model 初始化(此时两个网络还没有共享特征)。
    **用 Fast R-CNN 初始化 PRN:**固定共享的卷积层,仅微调 RPN 特有的层(此时两个网络开始共享)
    在保持共享卷积层固定不变的情况下,微调 Fast R-CNN 的特有层。(两个网络共享相同的卷积层并形成统一的网络)

    检测流程——
    输入一张多目标图像
    图像经过 CNN 网络生成特征图
    特征图分两路,一路经过 PRN 得到候选区域(经过 NMS ),另一路继续向后传播。
    上一步得到的高维特征图和区域建议同时输入 RoI 池化层,提取对应区域建议的特征
    区域特征通过全连接层后,输出该区域的分类得分以及回归后的 bounding-box

    粗略的挑选候选区域:
    在这里插入图片描述精确调整bounding box:
    在这里插入图片描述在这里插入图片描述

    展开全文
  • 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD 前言 之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会...

    一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

    前言

    之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不错的通俗易懂的资料,加之之前在京东上掏了一本书看了看,就这样耳濡目染中,还是开始研究了。

    今年五一,从保定回京,怕高速路上堵 没坐大巴,高铁又没抢上,只好选择哐当哐当好几年没坐过的绿皮车,关键还不断晚点。在车站,用手机做个热点,修改题库,顺便终于搞清R-CNN、fast R-CNN、faster R-CNN的核心区别。有心中热爱 何惧任何啥。

    为纪念这心中热爱,故成此文。

    一、目标检测常见算法

    object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。
    然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

    目前学术和工业界出现的目标检测算法分成3类:
    1. 传统的目标检测算法:Cascade + HOG/DPM + Haar/SVM以及上述方法的诸多改进、优化;
    2. 候选区域/窗 + 深度学习分类:通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:
    R-CNN(Selective Search + CNN + SVM)
    SPP-net(ROI Pooling)
    Fast R-CNN(Selective Search + CNN + ROI)
    Faster R-CNN(RPN + CNN + ROI)
    R-FCN

    等系列方法;

    3. 基于深度学习的回归方法:YOLO/SSD/DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等

    传统目标检测流程:
    1)区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高)
    2)特征提取(SIFT、HOG等;形态多样性、光照变化多样性、背景多样性使得特征鲁棒性差)
    3)分类器分类(主要有SVM、Adaboost等)

    二、传统的目标检测算法

    2.1 从图像识别的任务说起

    这里有一个图像任务:既要把图中的物体识别出来,又要用方框框出它的位置。

    这个任务本质上就是这两个问题:一:图像识别,二:定位。

    图像识别(classification)
    输入:图片
    输出:物体的类别
    评估方法:准确率


    定位(localization)
    输入:图片
    输出:方框在图片中的位置(x,y,w,h)
    评估方法:检测评价函数 intersection-over-union(关于什么是IOU,请参看七月在线APP题库大题查看深度学习分类下第55题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2138) 

    卷积神经网络CNN已经帮我们完成了图像识别(判定是猫还是狗)的任务了,我们只需要添加一些额外的功能来完成定位任务即可。

    定位的问题的解决思路有哪些?
    思路一:看做回归问题
    看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出方框的位置。

    步骤1:
      • 先解决简单问题, 搭一个识别图像的神经网络
      • 在AlexNet VGG GoogleLenet上fine-tuning一下(关于什么是微调fine-tuning,请参看:https://www.julyedu.com/question/big/kp_id/26/ques_id/2137)


     步骤2:
      • 在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)
      • 成为classification + regression模式

    步骤3:
      • Regression那个部分用欧氏距离损失
      • 使用SGD训练

    步骤4:
      • 预测阶段把2个头部拼上
      • 完成不同的功能

    这里需要进行两次fine-tuning
    第一次在ALexNet上做,第二次将头部改成regression head,前面不变,做一次fine-tuning

    Regression的部分加在哪?
    有两种处理方法:
      • 加在最后一个卷积层后面(如VGG)
      • 加在最后一个全连接层后面(如R-CNN)

    regression太难做了,应想方设法转换为classification问题。
    regression的训练参数收敛的时间要长得多,所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。

    思路二:取图像窗口
      • 还是刚才的classification + regression思路
      • 咱们取不同的大小的“框”
      • 让框出现在不同的位置,得出这个框的判定得分
      • 取得分最高的那个框

    左上角的黑框:得分0.5


    右上角的黑框:得分0.75


    左下角的黑框:得分0.6


    右下角的黑框:得分0.8


    根据得分的高低,我们选择了右下角的黑框作为目标位置的预测。
    注:有的时候也会选择得分最高的两个框,然后取两框的交集作为最终的位置预测。

    疑惑:框要取多大?
    取不同的框,依次从左上角扫到右下角。非常粗暴啊。

    总结一下思路:
    对一张图片,用各种大小的框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的得分(classification)以及这个框图片对应的x,y,h,w(regression)。


    这方法实在太耗时间了,做个优化。
    原来网络是这样的:


    优化成这样:把全连接层改为卷积层,这样可以提提速。

     

    2.2 物体检测(Object Detection)

    当图像有很多物体怎么办的?难度可是一下暴增啊。

    那任务就变成了:多物体识别+定位多个物体
    那把这个任务看做分类问题?


    看成分类问题有何不妥?
      • 你需要找很多位置, 给很多个不同大小的框
      • 你还需要对框内的图像分类
      • 当然, 如果你的GPU很强大, 恩, 那加油做吧…

    所以,传统目标检测的主要问题是:
    1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余
    2)手工设计的特征对于多样性的变化没有很好的鲁棒性

    看做classification, 有没有办法优化下?我可不想试那么多框那么多位置啊!

    三、候选区域/窗 + 深度学习分类

    3.1 R-CNN横空出世

    有人想到一个好方法:预先找出图中目标可能出现的位置,即候选区域(Region Proposal)。利用图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall)。

    所以,问题就转变成找出可能含有物体的区域/框(也就是候选区域/框,比如选2000个候选框),这些框之间是可以互相重叠互相包含的,这样我们就可以避免暴力枚举的所有框了。


    大牛们发明好多选定候选框Region Proposal的方法,比如Selective Search和EdgeBoxes。那提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢?具体可以看一下PAMI2015的“What makes for effective detection proposals?”

    以下是各种选定候选框的方法的性能对比。


    有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗Geoffrey Hinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%,而使用传统方法的第二名top-5 error高达 26.2%。此后,卷积神经网络CNN占据了图像分类任务的绝对统治地位。

    2014年,RBG(Ross B. Girshick)使用Region Proposal + CNN代替传统目标检测使用的滑动窗口+手工设计特征,设计了R-CNN框架,使得目标检测取得巨大突破,并开启了基于深度学习目标检测的热潮。

    R-CNN的简要步骤如下
    (1) 输入测试图像
    (2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal
    (3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征
    (4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类

    具体步骤则如下
    步骤一:训练(或者下载)一个分类模型(比如AlexNet)


    步骤二:对该模型做fine-tuning
      • 将分类数从1000改为20,比如20个物体类别 + 1个背景
      • 去掉最后一个全连接层


    步骤三:特征提取
      • 提取图像的所有候选框(选择性搜索Selective Search)
      • 对于每一个区域:修正区域大小以适合CNN的输入,做一次前向运算,将第五个池化层的输出(就是对候选框提取到的特征)存到硬盘



    步骤四:训练一个SVM分类器(二分类)来判断这个候选框里物体的类别
    每个类别对应一个SVM,判断是不是属于这个类别,是就是positive,反之nagative。

    比如下图,就是狗分类的SVM


    步骤五:使用回归器精细修正候选框位置:对于每一个类,训练一个线性回归模型去判定这个框是否框得完美。


    细心的同学可能看出来了问题,R-CNN虽然不再像传统方法那样穷举,但R-CNN流程的第一步中对原始图片通过Selective Search提取的候选框region proposal多达2000个左右,而这2000个候选框每个框都需要进行CNN提特征+SVM分类,计算量很大,导致R-CNN检测速度很慢,一张图都需要47s。



    有没有方法提速呢?答案是有的,这2000个region proposal不都是图像的一部分吗,那么我们完全可以对图像提一次卷积层特征,然后只需要将region proposal在原图的位置映射到卷积层特征图上,这样对于一张图像我们只需要提一次卷积层特征,然后将每个region proposal的卷积层特征输入到全连接层做后续操作。

    但现在的问题是每个region proposal的尺度不一样,而全连接层输入必须是固定的长度,所以直接这样输入全连接层肯定是不行的。SPP Net恰好可以解决这个问题。
     

    3.2 SPP Net

    SPP:Spatial Pyramid Pooling(空间金字塔池化)

    SPP-Net是出自2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》。

    众所周知,CNN一般都含有卷积部分和全连接部分,其中,卷积层不需要固定尺寸的图像,而全连接层是需要固定大小的输入。


    所以当全连接层面对各种尺寸的输入数据时,就需要对输入数据进行crop(crop就是从一个大图扣出网络输入大小的patch,比如227×227),或warp(把一个边界框bounding box的内容resize成227×227)等一系列操作以统一图片的尺寸大小,比如224*224(ImageNet)、32*32(LenNet)、96*96等。

    所以才如你在上文中看到的,在R-CNN中,“因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN”。

    但warp/crop这种预处理,导致的问题要么被拉伸变形、要么物体不全,限制了识别精确度。没太明白?说句人话就是,一张16:9比例的图片你硬是要Resize成1:1的图片,你说图片失真不?

    SPP Net的作者Kaiming He等人逆向思考,既然由于全连接FC层的存在,普通的CNN需要通过固定输入图片的大小来使得全连接层的输入固定。那借鉴卷积层可以适应任何尺寸,为何不能在卷积层的最后加入某种结构,使得后面全连接层得到的输入变成固定的呢?

    这个“化腐朽为神奇”的结构就是spatial pyramid pooling layer。下图便是R-CNN和SPP Net检测流程的比较:



    它的特点有两个:
    1.结合空间金字塔方法实现CNNs的多尺度输入。
    SPP Net的第一个贡献就是在最后一个卷积层后,接入了金字塔池化层,保证传到下一层全连接层的输入固定。
    换句话说,在普通的CNN机构中,输入图像的尺寸往往是固定的(比如224*224像素),输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层(ROI Pooling),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。

    简言之,CNN原本只能固定输入、固定输出,CNN加上SSP之后,便能任意输入、固定输出。神奇吧?

    ROI池化层一般跟在卷积层后面,此时网络的输入可以是任意尺度的,在SPP layer中每一个pooling的filter会根据输入调整大小,而SPP的输出则是固定维数的向量,然后给到全连接FC层。

    2.只对原图提取一次卷积特征
    在R-CNN中,每个候选框先resize到统一大小,然后分别作为CNN的输入,这样是很低效的。
    而SPP Net根据这个缺点做了优化:只对原图进行一次卷积计算,便得到整张图的卷积特征feature map,然后找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层,完成特征提取工作。

    如此这般,R-CNN要对每个区域计算卷积,而SPPNet只需要计算一次卷积,从而节省了大量的计算时间,比R-CNN有一百倍左右的提速。

    3.3 Fast R-CNN

    SPP Net真是个好方法,R-CNN的进阶版Fast R-CNN就是在R-CNN的基础上采纳了SPP Net方法,对R-CNN作了改进,使得性能进一步提高。

    R-CNN与Fast R-CNN的区别有哪些呢?
    先说R-CNN的缺点:即使使用了Selective Search等预处理步骤来提取潜在的bounding box作为输入,但是R-CNN仍会有严重的速度瓶颈,原因也很明显,就是计算机对所有region进行特征提取时会有重复计算,Fast-RCNN正是为了解决这个问题诞生的。

     

    与R-CNN框架图对比,可以发现主要有两处不同:一是最后一个卷积层后加了一个ROI pooling layer,二是损失函数使用了多任务损失函数(multi-task loss),将边框回归Bounding Box Regression直接加入到CNN网络中训练(关于什么是边框回归,请参看七月在线APP题库大题查看深度学习分类下第56题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2139)。

    (1) ROI pooling layer实际上是SPP-NET的一个精简版,SPP-NET对每个proposal使用了不同大小的金字塔映射,而ROI pooling layer只需要下采样到一个7x7的特征图。对于VGG16网络conv5_3有512个特征图,这样所有region proposal对应了一个7*7*512维度的特征向量作为全连接层的输入。

    换言之,这个网络层可以把不同大小的输入映射到一个固定尺度的特征向量,而我们知道,conv、pooling、relu等操作都不需要固定size的输入,因此,在原始图片上执行这些操作后,虽然输入图片size不同导致得到的feature map尺寸也不同,不能直接接到一个全连接层进行分类,但是可以加入这个神奇的ROI Pooling层,对每个region都提取一个固定维度的特征表示,再通过正常的softmax进行类型识别。

    (2) R-CNN训练过程分为了三个阶段,而Fast R-CNN直接使用softmax替代SVM分类,同时利用多任务损失函数边框回归也加入到了网络中,这样整个的训练过程是端到端的(除去Region Proposal提取阶段)。

    也就是说,之前R-CNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox regression,而在Fast R-CNN中,作者巧妙的把bbox regression放进了神经网络内部,与region分类和并成为了一个multi-task模型,实际实验也证明,这两个任务能够共享卷积特征,并相互促进。

    所以,Fast-RCNN很重要的一个贡献是成功的让人们看到了Region Proposal + CNN这一框架实时检测的希望,原来多类检测真的可以在保证准确率的同时提升处理速度,也为后来的Faster R-CNN做下了铺垫。

    画一画重点:
    R-CNN有一些相当大的缺点(把这些缺点都改掉了,就成了Fast R-CNN)。
    大缺点:由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。
    解决:共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征

    原来的方法:许多候选框(比如两千个)-->CNN-->得到每个候选框的特征-->分类+回归
    现在的方法:一张完整图片-->CNN-->得到每张候选框的特征-->分类+回归

    所以容易看见,Fast R-CNN相对于R-CNN的提速原因就在于:不过不像R-CNN把每个候选区域给深度网络提特征,而是整张图提一次特征,再把候选框映射到conv5上,而SPP只需要计算一次特征,剩下的只需要在conv5层上操作就可以了。

    在性能上提升也是相当明显的:

    3.4 Faster R-CNN

    Fast R-CNN存在的问题:存在瓶颈:选择性搜索,找出所有的候选框,这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢?

    解决:加入一个提取边缘的神经网络,也就说找到候选框的工作也交给神经网络来做了。

    所以,rgbd在Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search,同时引入anchor box应对目标形状的变化问题(anchor就是位置和大小固定的box,可以理解成事先设置好的固定的proposal)。

    具体做法:
      • 将RPN放在最后一个卷积层的后面
      • RPN直接训练得到候选区域


    RPN简介:
      • 在feature map上滑动窗口
      • 建一个神经网络用于物体分类+框位置的回归
      • 滑动窗口的位置提供了物体的大体位置信息
      • 框的回归提供了框更精确的位置


    一种网络,四个损失函数;
      • RPN calssification(anchor good.bad)
      • RPN regression(anchor->propoasal)
      • Fast R-CNN classification(over classes)
      • Fast R-CNN regression(proposal ->box)

    速度对比

    Faster R-CNN的主要贡献就是设计了提取候选区域的网络RPN,代替了费时的选择性搜索selective search,使得检测速度大幅提高。

    最后总结一下各大算法的步骤:
    RCNN
    1.在图像中确定约1000-2000个候选框 (使用选择性搜索Selective Search)
    2.每个候选框内图像块缩放至相同大小,并输入到CNN内进行特征提取 
    3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    4.对于属于某一类别的候选框,用回归器进一步调整其位置

    Fast R-CNN
    1.在图像中确定约1000-2000个候选框 (使用选择性搜索Selective Search)
    2.对整张图片输进CNN,得到feature map
    3.找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层
    4.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    5.对于属于某一类别的候选框,用回归器进一步调整其位置

    Faster R-CNN
    1.对整张图片输进CNN,得到feature map
    2.卷积特征输入到RPN,得到候选框的特征信息
    3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    4.对于属于某一类别的候选框,用回归器进一步调整其位置

    简言之,即如本文开头所列
    R-CNN(Selective Search + CNN + SVM)
    SPP-net(ROI Pooling)
    Fast R-CNN(Selective Search + CNN + ROI)
    Faster R-CNN(RPN + CNN + ROI)

    总的来说,从R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走来,基于深度学习目标检测的流程变得越来越精简,精度越来越高,速度也越来越快。可以说基于Region Proposal的R-CNN系列目标检测方法是当前目标检测技术领域最主要的一个分支。

    四、基于深度学习的回归方法

    4.1 YOLO (CVPR2016, oral)

    (You Only Look Once: Unified, Real-Time Object Detection)

    Faster R-CNN的方法目前是主流的目标检测方法,但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性,这类方法使用了回归的思想,利用整张图作为网络的输入,直接在图像的多个位置上回归出这个位置的目标边框,以及目标所属的类别。
     

    我们直接看上面YOLO的目标检测的流程图:

    (1) 给个一个输入图像,首先将图像划分成7*7的网格
    (2) 对于每个网格,我们都预测2个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)
    (3) 根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可(关于什么是非极大值抑制NMS,请参看七月在线APP题库大题查看深度学习分类下第58题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2141)。

    可以看到整个过程非常简单,不再需要中间的Region Proposal找目标,直接回归便完成了位置和类别的判定。


    小结:YOLO将目标检测任务转换成一个回归问题,大大加快了检测的速度,使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息,使得false positive比例大幅降低(充分的上下文信息)。

    但是YOLO也存在问题:没有了Region Proposal机制,只使用7*7的网格回归会使得目标不能非常精准的定位,这也导致了YOLO的检测精度并不是很高。
     

    4.2 SSD 

    (SSD: Single Shot MultiBox Detector)

    上面分析了YOLO存在的问题,使用整图特征在7*7的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合Region Proposal的思想实现精准一些的定位?SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。



    上图是SSD的一个框架图,首先SSD获取目标位置和类别的方法跟YOLO一样,都是使用回归,但是YOLO预测某个位置使用的是全图的特征,SSD预测某个位置使用的是这个位置周围的特征(感觉更合理一些)。

    那么如何建立某个位置和其特征的对应关系呢?可能你已经想到了,使用Faster R-CNN的anchor机制。如SSD的框架图所示,假如某一层特征图(图b)大小是8*8,那么就使用3*3的滑窗提取每个位置的特征,然后这个特征回归得到目标的坐标信息和类别信息(图c)。

    不同于Faster R-CNN,这个anchor是在多个feature map上,这样可以利用多层的特征并且自然的达到多尺度(不同层的feature map 3*3滑窗感受野不同)。
     

    小结:SSD结合了YOLO中的回归思想和Faster R-CNN中的anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在VOC2007上mAP可以达到72.1%,速度在GPU上达到58帧每秒。

    主要参考及扩展阅读

    1 https://www.cnblogs.com/skyfsm/p/6806246.html,by @Madcola
    2 https://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=502841131&idx=1&sn=bb3e8e6aeee2ee1f4d3f22459062b814#rd
    3 https://zhuanlan.zhihu.com/p/27546796
    4 https://blog.csdn.net/v1_vivian/article/details/73275259
    5 https://blog.csdn.net/tinyzhao/article/details/53717136
    6 Spatial Pyramid Pooling in Deep Convolutional
    Networks for Visual Recognition,by Kaiming He等人
    7 https://zhuanlan.zhihu.com/p/24774302
    8 知乎专栏作者何之源新书《21个项目玩转深度学习——基于TensorFlow的实践详解》
    9 YOLO:https://blog.csdn.net/tangwei2014/article/details/50915317,https://zhuanlan.zhihu.com/p/24916786

    展开全文
  • 原本打开2018何凯明团队发表在CVPR上的论文《Learning to segment everything》,发现这篇论文是基于Mask R-CNN,打开Mask R-CNN发现前面还有Faster R-CNN,Fast R-CNNR-CNN。初入深度学习做图像分割,所以就从R-...
  • 一、任务描述 目标检测是为了解决图像里的物体是什么,在哪里的问题。输入一幅图像,输出的是图像里每个物体的类别和位置,其中位置用一个包含物体的框表示。 需要注意,我们的目标,同时也...今天介绍的 R-CNN
  • 目标检测网络 2.1 R-CNN 2.2 Fast R-CNN 2.3 Faster R-CNN 3. 结尾 参考文献 1. 基本介绍 本讲进入到深度学习的应用方面,前面提到的卷积神经网络被用作图像分类识别,即输入一张图像,输出它的类别。在实际应用中...
  • Mask R-CNN是一种基于深度学习的图像实例分割方法,可对物体进行目标检测和像素级分割。 本课程将手把手地教大家使用VIA图像标注工具制作自己的数据集,并使用Mask R-CNN训练自己的数据集,从而能开展自己的图像分割...
  • R-CNN,Fast R-CNN,Faster R-CNN这些是深度学习目标检测的鼻祖。看各种博客分析,东看看西看看,不系统。这里准备系统的记录一下深度学习目标检测的发展史。这里大部分摘录其他博客。参考链接见下。 R-CNN,Fast R-...
  • CNN流行之后,Szegedy做过将detection问题作为回归问题的尝试(Deep Neural Networks for Object Detection),但是效果差强人意,在VOC2007上mAP只有30.5%。既然回归方法效果不好,而CNN在分类问题上效果很好,那么...
  • 针对复杂场景下行人检测效果差的问题,采用基于深度学习的目标检测中领先的研究成果,提出了一种基于改进Mask R-CNN框架的行人检测算法。首先,采用K-means算法对行人数据集的目标框进行聚类得到合适的长宽比,通过增加...
  • Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替FastR-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题: 1. 如何 设计 区域生成网络;...
  • 论文:He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision....实例分割模型Mask R-CNN详解:从R-CNN,Fast R-CNN,Faster R-CNN再到Mask R-CNNR-CNN1开讲...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 57,436
精华内容 22,974
关键字:

r-cnn