精华内容
参与话题
问答
  • 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD   前言 之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的...

    一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

     

    前言

    之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不错的通俗易懂的资料,加之之前在京东上掏了一本书看了看,就这样耳濡目染中,还是开始研究了。

    今年五一,从保定回京,怕高速路上堵 没坐大巴,高铁又没抢上,只好选择哐当哐当好几年没坐过的绿皮车,关键还不断晚点。在车站,用手机做个热点,修改题库,顺便终于搞清R-CNN、fast R-CNN、faster R-CNN的核心区别。有心中热爱 何惧任何啥。

    为纪念这心中热爱,故成此文。

     

    一、目标检测常见算法

    object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。


    然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

    目前学术和工业界出现的目标检测算法分成3类:
    1. 传统的目标检测算法:Cascade + HOG/DPM + Haar/SVM以及上述方法的诸多改进、优化;

    2. 候选区域/窗 + 深度学习分类:通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:
    R-CNN(Selective Search + CNN + SVM)
    SPP-net(ROI Pooling)
    Fast R-CNN(Selective Search + CNN + ROI)
    Faster R-CNN(RPN + CNN + ROI)
    R-FCN

     

    等系列方法;

    3. 基于深度学习的回归方法:YOLO/SSD/DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等

    传统目标检测流程:
    1)区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高)
    2)特征提取(SIFT、HOG等;形态多样性、光照变化多样性、背景多样性使得特征鲁棒性差)
    3)分类器分类(主要有SVM、Adaboost等)

     

     

     

     

    二、传统的目标检测算法

    2.1 从图像识别的任务说起

    这里有一个图像任务:既要把图中的物体识别出来,又要用方框框出它的位置。

    这个任务本质上就是这两个问题:一:图像识别,二:定位。

    图像识别(classification)
    输入:图片
    输出:物体的类别
    评估方法:准确率


    定位(localization)
    输入:图片
    输出:方框在图片中的位置(x,y,w,h)
    评估方法:检测评价函数 intersection-over-union(关于什么是IOU,请参看七月在线APP题库大题查看深度学习分类下第55题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2138) 


    卷积神经网络CNN已经帮我们完成了图像识别(判定是猫还是狗)的任务了,我们只需要添加一些额外的功能来完成定位任务即可。

    定位的问题的解决思路有哪些?
    思路一:看做回归问题
    看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出方框的位置。


    步骤1:
      • 先解决简单问题, 搭一个识别图像的神经网络
      • 在AlexNet VGG GoogleLenet上fine-tuning一下(关于什么是微调fine-tuning,请参看:https://www.julyedu.com/question/big/kp_id/26/ques_id/2137)


     
    步骤2:
      • 在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)
      • 成为classification + regression模式


    步骤3:
      • Regression那个部分用欧氏距离损失
      • 使用SGD训练

    步骤4:
      • 预测阶段把2个头部拼上
      • 完成不同的功能

    这里需要进行两次fine-tuning
    第一次在ALexNet上做,第二次将头部改成regression head,前面不变,做一次fine-tuning

    Regression的部分加在哪?
    有两种处理方法:
      • 加在最后一个卷积层后面(如VGG)
      • 加在最后一个全连接层后面(如R-CNN)

    regression太难做了,应想方设法转换为classification问题。
    regression的训练参数收敛的时间要长得多,所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。

    思路二:取图像窗口
      • 还是刚才的classification + regression思路
      • 咱们取不同的大小的“框”
      • 让框出现在不同的位置,得出这个框的判定得分
      • 取得分最高的那个框

    左上角的黑框:得分0.5


    右上角的黑框:得分0.75


    左下角的黑框:得分0.6


    右下角的黑框:得分0.8


    根据得分的高低,我们选择了右下角的黑框作为目标位置的预测。
    注:有的时候也会选择得分最高的两个框,然后取两框的交集作为最终的位置预测。

    疑惑:框要取多大?
    取不同的框,依次从左上角扫到右下角。非常粗暴啊。

    总结一下思路:
    对一张图片,用各种大小的框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的得分(classification)以及这个框图片对应的x,y,h,w(regression)。


    这方法实在太耗时间了,做个优化。
    原来网络是这样的:


    优化成这样:把全连接层改为卷积层,这样可以提提速。

     

    2.2 物体检测(Object Detection)

    当图像有很多物体怎么办的?难度可是一下暴增啊。

    那任务就变成了:多物体识别+定位多个物体
    那把这个任务看做分类问题?


    看成分类问题有何不妥?
      • 你需要找很多位置, 给很多个不同大小的框
      • 你还需要对框内的图像分类
      • 当然, 如果你的GPU很强大, 恩, 那加油做吧…

    所以,传统目标检测的主要问题是:
    1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余
    2)手工设计的特征对于多样性的变化没有很好的鲁棒性

    看做classification, 有没有办法优化下?我可不想试那么多框那么多位置啊!

     

    三、候选区域/窗 + 深度学习分类

    3.1 R-CNN横空出世

    有人想到一个好方法:预先找出图中目标可能出现的位置,即候选区域(Region Proposal)。利用图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall)。

    所以,问题就转变成找出可能含有物体的区域/框(也就是候选区域/框,比如选2000个候选框),这些框之间是可以互相重叠互相包含的,这样我们就可以避免暴力枚举的所有框了。


    大牛们发明好多选定候选框Region Proposal的方法,比如Selective Search和EdgeBoxes。那提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢?具体可以看一下PAMI2015的“What makes for effective detection proposals?”

    以下是各种选定候选框的方法的性能对比。


    有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗Geoffrey Hinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%,而使用传统方法的第二名top-5 error高达 26.2%。此后,卷积神经网络CNN占据了图像分类任务的绝对统治地位。

    2014年,RBG(Ross B. Girshick)使用Region Proposal + CNN代替传统目标检测使用的滑动窗口+手工设计特征,设计了R-CNN框架,使得目标检测取得巨大突破,并开启了基于深度学习目标检测的热潮。

    R-CNN的简要步骤如下
    (1) 输入测试图像
    (2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal
    (3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征
    (4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类

    具体步骤则如下
    步骤一:训练(或者下载)一个分类模型(比如AlexNet)


    步骤二:对该模型做fine-tuning
      • 将分类数从1000改为20,比如20个物体类别 + 1个背景
      • 去掉最后一个全连接层


    步骤三:特征提取
      • 提取图像的所有候选框(选择性搜索Selective Search)
      • 对于每一个区域:修正区域大小以适合CNN的输入,做一次前向运算,将第五个池化层的输出(就是对候选框提取到的特征)存到硬盘



    步骤四:训练一个SVM分类器(二分类)来判断这个候选框里物体的类别
    每个类别对应一个SVM,判断是不是属于这个类别,是就是positive,反之nagative。

    比如下图,就是狗分类的SVM


    步骤五:使用回归器精细修正候选框位置:对于每一个类,训练一个线性回归模型去判定这个框是否框得完美。


    细心的同学可能看出来了问题,R-CNN虽然不再像传统方法那样穷举,但R-CNN流程的第一步中对原始图片通过Selective Search提取的候选框region proposal多达2000个左右,而这2000个候选框每个框都需要进行CNN提特征+SVM分类,计算量很大,导致R-CNN检测速度很慢,一张图都需要47s。



    有没有方法提速呢?答案是有的,这2000个region proposal不都是图像的一部分吗,那么我们完全可以对图像提一次卷积层特征,然后只需要将region proposal在原图的位置映射到卷积层特征图上,这样对于一张图像我们只需要提一次卷积层特征,然后将每个region proposal的卷积层特征输入到全连接层做后续操作。

    但现在的问题是每个region proposal的尺度不一样,而全连接层输入必须是固定的长度,所以直接这样输入全连接层肯定是不行的。SPP Net恰好可以解决这个问题。
     

    3.2 SPP Net

    SPP:Spatial Pyramid Pooling(空间金字塔池化)

    SPP-Net是出自2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》。

    众所周知,CNN一般都含有卷积部分和全连接部分,其中,卷积层不需要固定尺寸的图像,而全连接层是需要固定大小的输入。


    所以当全连接层面对各种尺寸的输入数据时,就需要对输入数据进行crop(crop就是从一个大图扣出网络输入大小的patch,比如227×227),或warp(把一个边界框bounding box的内容resize成227×227)等一系列操作以统一图片的尺寸大小,比如224*224(ImageNet)、32*32(LenNet)、96*96等。

    所以才如你在上文中看到的,在R-CNN中,“因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN”。

    但warp/crop这种预处理,导致的问题要么被拉伸变形、要么物体不全,限制了识别精确度。没太明白?说句人话就是,一张16:9比例的图片你硬是要Resize成1:1的图片,你说图片失真不?

    SPP Net的作者Kaiming He等人逆向思考,既然由于全连接FC层的存在,普通的CNN需要通过固定输入图片的大小来使得全连接层的输入固定。那借鉴卷积层可以适应任何尺寸,为何不能在卷积层的最后加入某种结构,使得后面全连接层得到的输入变成固定的呢?

    这个“化腐朽为神奇”的结构就是spatial pyramid pooling layer。下图便是R-CNN和SPP Net检测流程的比较:



    它的特点有两个:
    1.结合空间金字塔方法实现CNNs的多尺度输入。
    SPP Net的第一个贡献就是在最后一个卷积层后,接入了金字塔池化层,保证传到下一层全连接层的输入固定。
    换句话说,在普通的CNN机构中,输入图像的尺寸往往是固定的(比如224*224像素),输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层(ROI Pooling),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。

    简言之,CNN原本只能固定输入、固定输出,CNN加上SSP之后,便能任意输入、固定输出。神奇吧?

    ROI池化层一般跟在卷积层后面,此时网络的输入可以是任意尺度的,在SPP layer中每一个pooling的filter会根据输入调整大小,而SPP的输出则是固定维数的向量,然后给到全连接FC层。

    2.只对原图提取一次卷积特征
    在R-CNN中,每个候选框先resize到统一大小,然后分别作为CNN的输入,这样是很低效的。
    而SPP Net根据这个缺点做了优化:只对原图进行一次卷积计算,便得到整张图的卷积特征feature map,然后找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层,完成特征提取工作。

    如此这般,R-CNN要对每个区域计算卷积,而SPPNet只需要计算一次卷积,从而节省了大量的计算时间,比R-CNN有一百倍左右的提速。

     

    3.3 Fast R-CNN

    SPP Net真是个好方法,R-CNN的进阶版Fast R-CNN就是在R-CNN的基础上采纳了SPP Net方法,对R-CNN作了改进,使得性能进一步提高。

    R-CNN与Fast R-CNN的区别有哪些呢?
    先说R-CNN的缺点:即使使用了Selective Search等预处理步骤来提取潜在的bounding box作为输入,但是R-CNN仍会有严重的速度瓶颈,原因也很明显,就是计算机对所有region进行特征提取时会有重复计算,Fast-RCNN正是为了解决这个问题诞生的。

     

    与R-CNN框架图对比,可以发现主要有两处不同:一是最后一个卷积层后加了一个ROI pooling layer,二是损失函数使用了多任务损失函数(multi-task loss),将边框回归Bounding Box Regression直接加入到CNN网络中训练(关于什么是边框回归,请参看七月在线APP题库大题查看深度学习分类下第56题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2139)。

    (1) ROI pooling layer实际上是SPP-NET的一个精简版,SPP-NET对每个proposal使用了不同大小的金字塔映射,而ROI pooling layer只需要下采样到一个7x7的特征图。对于VGG16网络conv5_3有512个特征图,这样所有region proposal对应了一个7*7*512维度的特征向量作为全连接层的输入。

    换言之,这个网络层可以把不同大小的输入映射到一个固定尺度的特征向量,而我们知道,conv、pooling、relu等操作都不需要固定size的输入,因此,在原始图片上执行这些操作后,虽然输入图片size不同导致得到的feature map尺寸也不同,不能直接接到一个全连接层进行分类,但是可以加入这个神奇的ROI Pooling层,对每个region都提取一个固定维度的特征表示,再通过正常的softmax进行类型识别。

    (2) R-CNN训练过程分为了三个阶段,而Fast R-CNN直接使用softmax替代SVM分类,同时利用多任务损失函数边框回归也加入到了网络中,这样整个的训练过程是端到端的(除去Region Proposal提取阶段)。

    也就是说,之前R-CNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox regression,而在Fast R-CNN中,作者巧妙的把bbox regression放进了神经网络内部,与region分类和并成为了一个multi-task模型,实际实验也证明,这两个任务能够共享卷积特征,并相互促进。

    所以,Fast-RCNN很重要的一个贡献是成功的让人们看到了Region Proposal + CNN这一框架实时检测的希望,原来多类检测真的可以在保证准确率的同时提升处理速度,也为后来的Faster R-CNN做下了铺垫。

    画一画重点:
    R-CNN有一些相当大的缺点(把这些缺点都改掉了,就成了Fast R-CNN)。
    大缺点:由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。
    解决:共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征

    原来的方法:许多候选框(比如两千个)-->CNN-->得到每个候选框的特征-->分类+回归
    现在的方法:一张完整图片-->CNN-->得到每张候选框的特征-->分类+回归

    所以容易看见,Fast R-CNN相对于R-CNN的提速原因就在于:不过不像R-CNN把每个候选区域给深度网络提特征,而是整张图提一次特征,再把候选框映射到conv5上,而SPP只需要计算一次特征,剩下的只需要在conv5层上操作就可以了。

    在性能上提升也是相当明显的:

     

    3.4 Faster R-CNN

    Fast R-CNN存在的问题:存在瓶颈:选择性搜索,找出所有的候选框,这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢?

    解决:加入一个提取边缘的神经网络,也就说找到候选框的工作也交给神经网络来做了。

    所以,rgbd在Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search,同时引入anchor box应对目标形状的变化问题(anchor就是位置和大小固定的box,可以理解成事先设置好的固定的proposal)。

    具体做法:
      • 将RPN放在最后一个卷积层的后面
      • RPN直接训练得到候选区域


    RPN简介:
      • 在feature map上滑动窗口
      • 建一个神经网络用于物体分类+框位置的回归
      • 滑动窗口的位置提供了物体的大体位置信息
      • 框的回归提供了框更精确的位置


    一种网络,四个损失函数;
      • RPN calssification(anchor good.bad)
      • RPN regression(anchor->propoasal)
      • Fast R-CNN classification(over classes)
      • Fast R-CNN regression(proposal ->box)

    速度对比

    Faster R-CNN的主要贡献就是设计了提取候选区域的网络RPN,代替了费时的选择性搜索selective search,使得检测速度大幅提高。

    最后总结一下各大算法的步骤:
    RCNN
    1.在图像中确定约1000-2000个候选框 (使用选择性搜索Selective Search)
    2.每个候选框内图像块缩放至相同大小,并输入到CNN内进行特征提取 
    3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    4.对于属于某一类别的候选框,用回归器进一步调整其位置

    Fast R-CNN
    1.在图像中确定约1000-2000个候选框 (使用选择性搜索Selective Search)
    2.对整张图片输进CNN,得到feature map
    3.找到每个候选框在feature map上的映射patch,将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层
    4.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    5.对于属于某一类别的候选框,用回归器进一步调整其位置

    Faster R-CNN
    1.对整张图片输进CNN,得到feature map
    2.卷积特征输入到RPN,得到候选框的特征信息
    3.对候选框中提取出的特征,使用分类器判别是否属于一个特定类 
    4.对于属于某一类别的候选框,用回归器进一步调整其位置

    简言之,即如本文开头所列
    R-CNN(Selective Search + CNN + SVM)
    SPP-net(ROI Pooling)
    Fast R-CNN(Selective Search + CNN + ROI)
    Faster R-CNN(RPN + CNN + ROI)

    总的来说,从R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走来,基于深度学习目标检测的流程变得越来越精简,精度越来越高,速度也越来越快。可以说基于Region Proposal的R-CNN系列目标检测方法是当前目标检测技术领域最主要的一个分支。

     

    四、基于深度学习的回归方法

    4.1 YOLO (CVPR2016, oral)

    (You Only Look Once: Unified, Real-Time Object Detection)

    Faster R-CNN的方法目前是主流的目标检测方法,但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性,这类方法使用了回归的思想,利用整张图作为网络的输入,直接在图像的多个位置上回归出这个位置的目标边框,以及目标所属的类别。
     

    我们直接看上面YOLO的目标检测的流程图:

    (1) 给个一个输入图像,首先将图像划分成7*7的网格
    (2) 对于每个网格,我们都预测2个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)
    (3) 根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可(关于什么是非极大值抑制NMS,请参看七月在线APP题库大题查看深度学习分类下第58题:https://www.julyedu.com/question/big/kp_id/26/ques_id/2141)。

    可以看到整个过程非常简单,不再需要中间的Region Proposal找目标,直接回归便完成了位置和类别的判定。


    小结:YOLO将目标检测任务转换成一个回归问题,大大加快了检测的速度,使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息,使得false positive比例大幅降低(充分的上下文信息)。

    但是YOLO也存在问题:没有了Region Proposal机制,只使用7*7的网格回归会使得目标不能非常精准的定位,这也导致了YOLO的检测精度并不是很高。
     

    4.2 SSD 

    (SSD: Single Shot MultiBox Detector)

    上面分析了YOLO存在的问题,使用整图特征在7*7的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合Region Proposal的思想实现精准一些的定位?SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。



    上图是SSD的一个框架图,首先SSD获取目标位置和类别的方法跟YOLO一样,都是使用回归,但是YOLO预测某个位置使用的是全图的特征,SSD预测某个位置使用的是这个位置周围的特征(感觉更合理一些)。

    那么如何建立某个位置和其特征的对应关系呢?可能你已经想到了,使用Faster R-CNN的anchor机制。如SSD的框架图所示,假如某一层特征图(图b)大小是8*8,那么就使用3*3的滑窗提取每个位置的特征,然后这个特征回归得到目标的坐标信息和类别信息(图c)。

    不同于Faster R-CNN,这个anchor是在多个feature map上,这样可以利用多层的特征并且自然的达到多尺度(不同层的feature map 3*3滑窗感受野不同)。
     

    小结:SSD结合了YOLO中的回归思想和Faster R-CNN中的anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在VOC2007上mAP可以达到72.1%,速度在GPU上达到58帧每秒。

     

    主要参考及扩展阅读

    1 https://www.cnblogs.com/skyfsm/p/6806246.html,by @Madcola
    2 https://mp.weixin.qq.com/s?__biz=MzI1NTE4NTUwOQ==&mid=502841131&idx=1&sn=bb3e8e6aeee2ee1f4d3f22459062b814#rd
    3 https://zhuanlan.zhihu.com/p/27546796
    4 https://blog.csdn.net/v1_vivian/article/details/73275259
    5 https://blog.csdn.net/tinyzhao/article/details/53717136
    6 Spatial Pyramid Pooling in Deep Convolutional
    Networks for Visual Recognition,by Kaiming He等人
    7 https://zhuanlan.zhihu.com/p/24774302
    8 知乎专栏作者何之源新书《21个项目玩转深度学习——基于TensorFlow的实践详解》
    9 YOLO:https://blog.csdn.net/tangwei2014/article/details/50915317,https://zhuanlan.zhihu.com/p/24916786

    展开全文
  • Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂,一石多鸟的多任务网络模型...

       Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成果。在机器学习2017年的最新发展中,单任务的网络结构已经逐渐不再引人瞩目,取而代之的是集成,复杂,一石多鸟的多任务网络模型。Mask R-CNN就是典型的代表。本篇大作的一作是何凯明,在该篇论文发表的时候,何凯明已经去了FaceBook。我们先来看一下,Mask R-CNN取得了何等的成果。



       大家可以看到,在实例分割Mask R-CNN框架中,还是主要完成了三件事情:

       1) 目标检测,直接在结果图上绘制了目标框(bounding box)。

       2) 目标分类,对于每一个目标,需要找到对应的类别(class),区分到底是人,是车,还是其他类别。

       3) 像素级目标分割,在每个目标中,需要在像素层面区分,什么是前景,什么是背景。

       可是,在解析Mask R-CNN之前,笔者不得不告诉大家一个事实,Mask R-CNN是继承于Faster R-CNN (2016)的,Mask R-CNN只是在Faster R-CNN上面加了一个Mask Prediction Branch (Mask 预测分支),并且改良了ROI Pooling,提出了ROI Align。从统计数据来看,"Faster R-CNN"在Mask R-CNN论文的前三章中出现了二十余次,因此,如果不了解Ross Girshick和何凯明之前的工作,是很难弄懂Mask R-CNN的。所以,笔者在解析Mask R-CNN之前,先给大家分析一下Faster R-CNN。

       在给大家解析Faster R-CNN之前,笔者又要告诉大家,Faster R-CNN是继承于Fast R-CNN (2015),Fast R-CNN继承于R-CNN (2014)。因此,索性破釜沉舟,在本篇博文中,笔者就按照R-CNN, Fast R-CNN,Faster R-CNN再到Mask R-CNN的发展顺序全部解析。

       首先时间回到了2014年,在2014年,正是深度学习如火如荼的发展的第三年。在CVPR 2014年中Ross Girshick提出的R-CNN中,使用到了卷积神经网络来进行目标检测。下面笔者就来概述一下R-CNN是如何采用卷积神经网络进行目标检测的工作。


       首先模型输入为一张图片,然后在图片上提出了约2000个待检测区域,然后这2000个待检测区域一个一个地(串联方式)通过卷积神经网络提取特征,然后这些被提取的特征通过一个支持向量机(SVM)进行分类,得到物体的类别,并通过一个bounding box regression调整目标包围框的大小。下面,笔者简要概述一下R-CNN是怎么实现以上步骤的。

       首先在第一步提取2000个待检测区域的时候,是通过一个2012年提出的方法,叫做selective search。简单来说就是通过一些传统图像处理方法将图像分成若干块,然后通过一个SVM将属于同一目标的若干块拿出来。selective search的核心是一个SVM,架构如下所示:


       然后在第二步进行特征提取的时候,Ross直接借助了当时深度学习的最新成果AlexNet (2012)。那么,该网络是如何训练的呢?是直接在ImageNet上面训练的,也就是说,使用图像分类数据集训练了一个仅仅用于提取特征的网络。

       在第三步进行对目标的时候,使用了一个支持向量机(SVM),在训练这个支持向量机的时候,结合目标的标签(类别)与包围框的大小进行训练,因此,该支持向量机也是被单独训练的。

       在2014年R-CNN横空出世的时候,颠覆了以往的目标检测方案,精度大大提升。对于R-CNN的贡献,可以主要分为两个方面:

       1) 使用了卷积神经网络进行特征提取

       2) 使用bounding box regression进行目标包围框的修正

       但是,我们来看一下,R-CNN有什么问题:

       1) 耗时的selective search,对一帧图像,需要花费2s。

       2) 耗时的串行式CNN前向传播,对于每一个RoI,都需要经过一个AlexNet提特征,为所有的RoI提特征大约花费47s。

       3) 三个模块是分别训练的,并且在训练的时候,对于存储空间的消耗很大。

       那么,面对这种情势,Ross在2015年提出的Fast R-CNN进行了改进,下面我们来概述一下Fast R-CNN的解决方案:


       首先还是采用selective search提取2000个候选框,然后,使用一个神经网络对全图进行特征提取。接着,使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征,再通过全连接层(FC Layer)进行分类与包围框的修正。Fast R-CNN的贡献可以主要分为两个方面:

       1) 取代R-CNN的串行特征提取方式,直接采用一个神经网络对全图提取特征(这也是为什么需要RoI Pooling的原因)。

       2) 除了selective search,其他部分都可以合在一起训练。

       可是,Fast R-CNN也有缺点,体现在耗时的selective search还是依旧存在。那么,如何改良这个缺陷呢?发表于2016年的Faster R-CNN进行了如下创新:

       取代selective search,直接通过一个Region Proposal Network (RPN)生成待检测区域,这么做,在生成RoI区域的时候,时间也就从2s缩减到了10ms。我们来看一下Faster R-CNN是怎么做的。


       首先使用共享的卷积层为全图提取特征,然后将得到的feature maps送入RPN,RPN生成待检测框(指定RoI的位置)并对RoI的包围框进行第一次修正。之后就是Fast R-CNN的架构了,RoI Pooling Layer根据RPN的输出在feature map上面选取每个RoI对应的特征,并将维度置为定值。最后,使用全连接层(FC Layer)对框进行分类,并且进行目标包围框的第二次修正。尤其注意的是,Faster R-CNN真正实现了端到端的训练(end-to-end training)

       要理解Mask R-CNN,只有先理解Faster R-CNN。因此,笔者根据Faster R-CNN的架构(Faster R-CNN的ZF model的train.prototxt),画了一个结构图,如下所示:


       如上图所示,Faster R-CNN的结构主要分为三大部分,第一部分是共享的卷积层-backbone,第二部分是候选区域生成网络-RPN,第三部分是对候选区域进行分类的网络-classifier。其中,RPN与classifier部分均对目标框有修正。classifier部分是原原本本继承的Fast R-CNN结构。我们下面来简单看看Faster R-CNN的各个模块。

       首先来看看RPN的工作原理:


       简单地说,RPN依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的目标框(文中叫做anchor)。这9种初始anchor包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1)。示意图如下所示:


       由于共享特征图的大小约为40×60,RPN生成的初始anchor的总数约为20000个(40×60×9)。对于生成的anchor,RPN要做的事情有两个,第一个是判断anchor到底是前景还是背景,意思就是判断这个anchor到底有没有覆盖目标,第二个是为属于前景的anchor进行第一次坐标修正。对于前一个问题,Faster R-CNN的做法是使用SoftmaxLoss直接训练,在训练的时候排除掉了超越图像边界的anchor;对于后一个问题,采用SmoothL1Loss进行训练。那么,RPN怎么实现呢?这个问题通过RPN的本质很好求解,RPN的本质是一个树状结构,树干是一个3×3的卷积层,树枝是两个1×1的卷积层,第一个1×1的卷积层解决了前后景的输出,第二个1×1的卷积层解决了边框修正的输出。来看看在代码中是怎么做的:


       从如上代码中可以看到,对于RPN输出的特征图中的每一个点,一个1×1的卷积层输出了18个值,因为是每一个点对应9个anchor,每个anchor有一个前景分数和一个背景分数,所以9×2=18。另一个1×1的卷积层输出了36个值,因为是每一个点对应9个anchor,每个anchor对应了4个修正坐标的值,所以9×4=36。那么,要得到这些值,RPN网络需要训练。在训练的时候,就需要对应的标签。那么,如何判定一个anchor是前景还是背景呢?文中做出了如下定义:如果一个anchor与ground truth的IoU在0.7以上,那这个anchor就算前景(positive)。类似地,如果这个anchor与ground truth的IoU在0.3以下,那么这个anchor就算背景(negative)。在作者进行RPN网络训练的时候,只使用了上述两类anchor,与ground truth的IoU介于0.3和0.7的anchor没有使用。在训练anchor属于前景与背景的时候,是在一张图中,随机抽取了128个前景anchor与128个背景anchor。

       在上一段中描述了前景与背景分类的训练方法,本段描述anchor边框修正的训练方法。边框修正主要由4个值完成,tx,ty,th,tw。这四个值的意思是修正后的框在anchor的x和y方向上做出平移(由tx和ty决定),并且长宽各自放大一定的倍数(由th和ty决定)。那么,如何训练网络参数得到这四个值呢?Fast R-CNN给出了答案,采用SmoothL1loss进行训练,具体可以描述为:


       到这里有个问题,就是不是对于所有的anchor,都需要进行anchor包围框修正的参数训练,只是对positive的anchors有这一步。因此,在训练RPN的时候,只有对128个随机抽取的positive anchors有这一步训练。因此,训练RPN的损失函数可以写成:


       在这里Lreg就是上面的Lloc,λ被设置为10,Ncls为256,Nreg为2400。这样设置的话,RPN的两部分loss值能保持平衡。

       到这里RPN就解析完毕了,下面我们来看看后面的classifier,但是在介绍classifier之前,我们先来看看RoI Pooling到底做了什么?

       首先第一个问题是为什么需要RoI Pooling?答案是在Fast R-CNN中,特征被共享卷积层一次性提取。因此,对于每个RoI而言,需要从共享卷积层上摘取对应的特征,并且送入全连接层进行分类。因此,RoI Pooling主要做了两件事,第一件是为每个RoI选取对应的特征,第二件事是为了满足全连接层的输入需求,将每个RoI对应的特征的维度转化成某个定值。RoI Pooling示意图如下所示:


       如上图所示,对于每一个RoI,RoI Pooling Layer将其对应的特征从共享卷积层上拿出来,并转化成一样的大小(6×6)。

       在RoI Pooling Layer之后,就是Fast R-CNN的分类器和RoI边框修正训练。分类器主要是分这个提取的RoI具体是什么类别(人,车,马等等),一共C+1类(包含一类背景)。RoI边框修正和RPN中的anchor边框修正原理一样,同样也是SmoothL1 Loss,值得注意的是,RoI边框修正也是对于非背景的RoI进行修正,对于类别标签为背景的RoI,则不进行RoI边框修正的参数训练。对于分类器和RoI边框修正的训练,可以公式描述如下:


       上式中u>=1表示RoI边框修正是对于非背景的RoI而言的,实验中,上式的λ取1。

       在训练分类器和RoI边框修正时,步骤如下所示:

       1) 首先通过RPN生成约20000个anchor(40×60×9)。

       2) 对20000个anchor进行第一次边框修正,得到修订边框后的proposal。

       3) 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。

       4) 忽略掉长或者宽太小的proposal。

       5) 将所有proposal按照前景分数从高到低排序,选取前12000个proposal。

       6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。

       7) 针对上一步剩下的proposal,选取前2000个proposal进行分类和第二次边框修正。

       总的来说,Faster R-CNN的loss分两大块,第一大块是训练RPN的loss(包含一个SoftmaxLoss和SmoothL1Loss),第二大块是训练Fast R-CNN中分类器的loss(包含一个SoftmaxLoss和SmoothL1Loss),Faster R-CNN的总的loss函数描述如下:


       然后,对于Faster R-CNN的训练方式有三种,可以被描述如下:

       1) RPN和Fast R-CNN交替训练,这种方式也是作者采用的方式。

       2) 近似联合RPN和Fast R-CNN的训练,在训练时忽略掉了RoI边框修正的误差,也就是说只对anchor做了边框修订,这也是为什么叫"近似联合"的原因。

       3) 联合RPN和Fast R-CNN的训练。

       对于作者采用的交替训练的方式,步骤如下:

       1) 使用在ImageNet上预训练的模型初始化共享卷积层并训练RPN

       2) 使用上一步得到的RPN参数生成RoI proposal。再使用ImageNet上预训练的模型初始化共享卷积层,训练Fast R-CNN部分(分类器和RoI边框修订)。

       3) 将训练后的共享卷积层参数固定,同时将Fast R-CNN的参数固定,训练RPN。(从这一步开始,共享卷积层的参数真正被两大块网络共享)

       4) 同样将共享卷积层参数固定,并将RPN的参数固定,训练Fast R-CNN部分。

       Faster R-CNN的测试流程和训练流程挺相似,描述如下:

       1) 首先通过RPN生成约20000个anchor(40×60×9)通过RPN

       2) 对20000个anchor进行第一次边框修正,得到修订边框后的proposal。

       3) 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。

       4) 忽略掉长或者宽太小的proposal。

       5) 将所有proposal按照前景分数从高到低排序,选取前6000个proposal。

       6) 使用阈值为0.7的NMS算法排除掉重叠的proposal。

       7) 针对上一步剩下的proposal,选取前300个proposal进行分类和第二次边框修正。

       到这里,Faster R-CNN就介绍完毕了。接下来到了Mask R-CNN,我们来看看RoI Pooling出了什么问题:

       问题1:从输入图上的RoI到特征图上的RoI feature,RoI Pooling是直接通过四舍五入取整得到的结果。

       这一点可以在代码中印证:


       可以看到直接用round取的值,这样会带来什么坏处呢?就是RoI Pooling过后的得到的输出可能和原图像上的RoI对不上,如下图所示:


       右图中蓝色部分表示包含了轿车主体的的信息的方格,RoI Pooling Layer的四舍五入取整操作导致其进行了偏移。

       问题2:再将每个RoI对应的特征转化为固定大小的维度时,又采用了取整操作。在这里笔者举例讲解一下RoI Pooling的操作:


       在从RoI得到对应的特征图时,进行了问题1描述的取整,在得到特征图后,如何得到一个6×6的全连接层的输入呢?RoI Pooling这样做:将RoI对应的特征图分成6×6块,然后直接从每块中找到最大值。在上图中的例子中,比如原图上的的RoI大小是280×480,得到对应的特征图是18×30。将特征图分成6块,每块大小是3×5,然后在每一块中分别选择最大值放入6×6的对应区域中。在将特征图分块的时候,又用到了取整,这点同样可以在代码中得到佐证:


       这种取整操作(在Mask R-CNN中被称为quantization)对RoI分类影响不大,可是对逐像素的预测目标是有害的,因为对每个RoI取得的特征并没有与RoI对齐。因此,Mask R-CNN对RoI Pooling做了改进并提出了RoI Align。

       RoI Align的主要创新点是,针对问题1,不再进行取整操作。针对问题2,使用双线性插值来更精确地找到每个块对应的特征。总的来说,RoI Align的作用主要就是剔除了RoI Pooling的取整操作,并且使得为每个RoI取得的特征能够更好地对齐原图上的RoI区域。

       下图阐述了Mask R-CNN的Mask branch:


       在Mask R-CNN中的RoI Align之后有一个"head"部分,主要作用是将RoI Align的输出维度扩大,这样在预测Mask时会更加精确。在Mask Branch的训练环节,作者没有采用FCN式的SoftmaxLoss,反而是输出了K个Mask预测图(为每一个类都输出一张),并采用average binary cross-entropy loss训练,当然在训练Mask branch的时候,输出的K个特征图中,也只是对应ground truth类别的那一个特征图对Mask loss有贡献。

       Mask R-CNN的训练损失函数可以描述为:


       在上式中,Lbox和Lmask都是对positive RoI才会起作用的。

       在Mask R-CNN中,相较于Faster R-CNN还有些略微的调整,比如positive RoI被定义成了与Ground truth的IoU大于0.5的(Faster R-CNN中是0.7)。太过于细节的东西本篇博文不再赘述,详情参见Mask R-CNN中的Implementation Details。

       到这里再将Mask R-CNN和FCIS做个比较,首先两者的相同点是均继承了Faster R-CNN的RPN部分不同点是对于FCIS,预测mask和分类是共享的参数。而Mask R-CNN则是各玩各的,两个任务各自有各自的可训练参数。对于这一点,Mask R-CNN论文里还专门作了比较,显示对于预测mask和分类如果使用共享的特征图对于某些重叠目标可能会出现问题。


       Mask R-CNN的实验取得了很好的效果,达到甚至超过了state-of-the-art的水平。不过训练代价也是相当大的,需要8块GPU联合训练。


       Mask R-CNN的实验非常详细,还做了很多对比实验,比如说改换网络深度,在训练mask branch时的误差种类,将RoI Align同RoI Pooling和RoI Warping进行比较,改变预测mask的方式(FCN和全连接层)等,详情请参见Mask R-CNN的实验部分。





       到这里Mask R-CNN介绍就接近尾声了,笔者还想说一些自己的思考与感想:

       1) 可继承工作的充分体现。大家看到Mask R-CNN的结构相当复杂,实际上是继承了大量之前的工作。首先bounding box regression在2014年的R-CNN中就出现过。Mask R-CNN的主要创新点RoI Align改良于RoI Pooling,而RoI Pooling是在2015年的Fast R-CNN中提出的。对于RPN的应用,更是直接继承了2016年的Faster R-CNN。值得一提的是,上述的每一篇文章,都是颠覆目标检测领域计算架构的杰出作品。

       2)集成的工作。还是那句老话,到了2017-2018年,随着深度学习的高速发展,单任务模型已经逐渐被抛弃。取而代之的是更集成,更综合,更强大的多任务模型。Mask R-CNN就是其中的代表。

       3)引领潮流。再次向何凯明和Ross Girshick致敬,他们的实力引领了目标检测领域的发展,因此无论他们在哪,无论是在微软还是FaceBook,他们的idea和作品都被非常多的人应用或者继承。

       欢迎阅读笔者后续博客,各位读者朋友的支持与鼓励是我最大的动力!


    written by jiong

    鸿爪踏雪泥,还是来得及。

    展开全文
  • 目标检测(R-CNN、Fast R-CNN、Faster R-CNN) 1、目标检测(object detection) 图像识别是输入一张图像,输出该图像对应的类别。目标检测的输入同样是一张国像,但输出不单单是图像的类别,而是该图像中所含的...

    目标检测(R-CNN、Fast R-CNN、Faster R-CNN)


    1、目标检测(object detection)

    图像识别是输入一张图像,输出该图像对应的类别。目标检测的输入同样是一张国像,但输出不单单是图像的类别,而是该图像中所含的所有目标物体以及它们的位置,通常使用矩形框来标识物体的位置。
    大部分的目标检测方法流程是:生成区域候选框,对这些区域框提取特征(SIFT 特征 、HOG 特征、CNN),使用图像识别方法分类(SVM、CNN),得到所有分类成功的区域后,通过非极大值抑制( Non-maximum suppression )输出结果。


    2、候选框(bounding boxes)

    区域候选框的生成主要有两种方法,一种是穷举法、一种是选择性搜索。

    • 穷举法:也叫滑窗法。使用不同大小的窗口在图片上从左到右,从上到下滑动,每次滑动就是一个候选框,由于是全局搜索而且要考虑窗口的长宽比,计算量大、效率低下。
    • 选择搜索(Selective Search):首先,使用图像分割(边缘等特性)算法,分割出许多小区域;然后,根据这些小区域之间相似性(颜色、纹理等)进行区域合并,不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做 bounding boxes (外切矩形)就生成了候选框。

    3、R-CNN:Region-CNN

    R-CNN 算法原理:

    • Selective Search 生成候选框
    • 候选框区域缩放到统一大小,使用 CNN 对每个候选框提取特征
    • 提取出特征后使用 SVM 进行分类
    • 通过非极大值抑制输出结果

    R-CNN 训练步骤:

    • 在数据集上训练CNN。R-CNN 论文中使用的 CNN 网络是AlexNet,数据集为ImageNet 。
    • 在目标检测的数据集上,对训练好的 CNN 做微调 。
    • 用 Selective Search 搜索候选区域,统一使用微调后的 CNN 对这些区域提取特征,并将提取到的特征存储起来。
    • 使用存储起来的特征,训练SVM 分类器。

    R-CNN 训练步骤性能:
    VOC 2007 数据集上,传统方法最高的平均精确度mAP ( mean Average Precision )为40%左右,而R-CNN 的mAP 达到了58.5%.
    R-CNN 的缺点是计算量太大。在一张图片中,通过Selective Search 得到的有效区域往往在1000 个以上,这意昧着要重复计算1000 多次神经网络,非常耗时。另外,在训练、阶段,还需要把所高特征保存起来,再通过SVM进行训练,这也是非常耗时且麻烦的


    4、Fast R-CNN

    SPPNet:
    SPPNet 的英文全称是Spatial Pyramid Pooling Convolutional Networks 中文是“空间金字塔池化卷积网络” 。
    SPPNet 将 CNN 的输入从固定尺寸改进为任意尺寸。SPPNet 在普通的 CNN 结构中加入了 ROI 池化层( ROI Pooling ),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。
    在这里插入图片描述
    ROI 池化层:对输入的宽w、高h、通道数c的卷积特征进行划分。分别划分为4×4、2×2、1×1的网格,对每个网格中的每个通道进行最大值池化(取最大值),得到的特征是16c+4c+c = 21c 维的特征。很显然,这个输出特征的长度与w 、h 两个值是无关的,因此ROI 池化层可以把任意宽度、高度的卷积特征转换为固定长度的向量。

    SPPNet 原理:先对图像进行一遍卷积计算,得到整个图像的卷积特征。接着, 对于原始图像中的各种候选框,只需要在卷积特征中找到对应的位置框,再使用 ROI 池化层对位置框中的卷积提取特征,就可以完成特征提取工作。在提取特征后,使用了SVM 进行分类。

    R-CNN 要对每个区域(有重叠)计算卷积,而SPPNet 只需要对整张图片计算一次,因此 SPPNet 的效率比 R-CNN 高得多。

    Fast R-CNN:
    在SPPNet 中,实际上特征提取和区域分类两个步骤还是分离的,还是使用传统的 SVM 作为分类器。Fast R-CNN 相比 SPPNet 更进一步,不再使用 SVM 作为分类器,而是使用神经网络进行分类,这样就可以同时训练特征提取网络和分类网络,从而取得比SPPNet 更高的准确度。
    在这里插入图片描述
    Fast R-CNN 使用全连接层进行分类。全连接层有两个输出,一个输出负责分类(Softmax),另一个输出负责框回归(bbox regressor)。对于分类,假设要在图像中检测 K 类物体,那么最终的输出应该是 K+ I 个数(一类“背景类”),每个数都代表该区域为某个类别的概率。对于框回归,框回归是对原始的检测框进行某种程度的校准。因为使用 Selective Search 获得的框可能存在一定偏差。框的四个参数为(x,y,w,h),其中(x,y)表示框左上角的坐标位置,(w,h)表示框的宽度和高度。


    5、Faster R-CNN

    RPN( Region Proposal Network )网络:
    RPN 需要先使用一个CNN 网络对原始图片提取特征,使图片变为 W×H×C 的网络。网络中的每一个格子负责该位置上 k 个不同的 anchor 是否存在一个物体。
    在这里插入图片描述
    使用一个 3x3 的滑动窗口,将每个位置转为一个统一维数的特征,这个恃征对应了两部分的输出。一部分表示该位置的 anchor 为物体的概率,总输出长度为2xk(一个 anchor 对应两个输出,是物体的概率+不是物体的概率)。另一部分为框回归,一个 anchor 对应4 个框回归参数,因此框回归部分的总输出的长度为4xk。
    在这里插入图片描述

    Faster R-CNN:
    Faster R-CNN 使用 RPN 取代了 Selective Search 生成候选框后,剩下的网络结构和 Fast R -CNN 中的结构一模一样。在训练过程中,需要训练两个网络,一个是RPN 网络,一个是在得到框之后的分类网络。通常的做法是交替训练,即在一个 batch 内,先训练RPN 网络一次,再训练分类网络一次。


    6、总结

    项目 R-CNN Fast R-CNN Faster R-CNN
    提取候选框 Selective Search Selective Search RPN网络
    提取特征 CNN CNN+ROI池化 CNN+ROI池化
    分类 SVM 全连接 全连接

    从R-CNN,到Fast R-CNN ,再到Faster R-CNN ,不仅检测速度越来越快,而且检测的精确度也在不断提升。在出现R-CNN方法前,VOC 2007数据集上传统方法所能达到的最高平均精确度( mAP )为40% 左右, R-CNN 将该值提高到了58.5%,Fast R-CNN 为70%,Faster R-CNN 又将该值提高到了78.8% 。这几种方法既一脉相承,又不断改进,不断的 CNN 化。


    GOOD LUCK!


    展开全文
  • 想学习R-CNN、Fast R-CNN、Faster R-CNN必看的5篇经典论文,详细介绍了算法的原理
  • 论文:He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision....实例分割模型Mask R-CNN详解:从R-CNN,Fast R-CNN,Faster R-CNN再到Mask R-CNNR-CNN1开讲...

    论文:He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision. 2017.
    代码:TensorFlow实现

    实例分割模型Mask R-CNN详解:从R-CNN,Fast R-CNN,Faster R-CNN再到Mask R-CNN从R-CNN1开讲讲到Mask R-CNN2,很完整,简明的表述了R-CNN系列的发展,但是不够细节。Mask R-CNN2可以理解为Faster R-CNN3 + FCN4

    1. R-CNN2算法详解

    a. 在图像中确定约1000-2000个候选框
    b. 对于每个候选框内图像块,使用深度网络提取特征
    c. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类
    d. 对于属于某一特征的候选框,用回归器进一步调整其位置

    1. Fast R-CNN5算法详解

    网络末端同步训练的分类和位置调整,提升准确度
    使用多尺度的图像金字塔,性能几乎没有提高
    倍增训练数据,能够有2%-3%的准确度提升
    网络直接输出各类概率(softmax),比SVM分类器性能略好
    更多候选窗不能提升性能

    1. Faster R-CNN3算法详解

    目标检测的四个基本步骤(候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架之内
    在这里插入图片描述

    1. Mask R-CNN算法详解
      Mask R-CNN
      输入图片进行特征提取,使用FPN6网络

    [5]:Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
    参考:


    1. Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. ↩︎

    2. He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference on computer vision. 2017. ↩︎ ↩︎ ↩︎

    3. Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems. 2015. ↩︎ ↩︎

    4. Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. ↩︎

    5. Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE international conference on computer vision. 2015. ↩︎

    6. Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. ↩︎

    展开全文
  • 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD。传统的目标检测算法、候选区域/窗 + 深度学习分类
  • R-CNN: (1)输入测试图像; (2)利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal; (3)将每个Region Proposal缩放(warp)成227*227的大小并输入到CNN,将CNN的fc7层的输出作为特征; (4...
  • 自从CNN以来,计算机视觉是一个跨学科领域,近年来受到越来越多的关注,并且自 动驾驶汽车已成为焦点。计算机视觉的另一个组成部分是对象检测。对象检测有助于 姿态估计,车辆检测,监视等。对象检测算法与分类算法...
  • R-CNN、Fast R-CNN、Faster R-CNN、SSD、YOLO必看经典论文十篇(强烈推荐)
  • 【深度学习】R-CNN 论文解读及个人理解

    万次阅读 多人点赞 2018-08-24 10:04:15
    背景 本篇论文的题目是 《Rich feature hierarchies for accurate oject detection and semantic segmentation》,翻译过来就是针对高准确度的目标检测与语义分割的多特征层级,通俗地来讲就是一个用来做目标检测...
  • 做语义分割的大概都知道这几篇文章了,将一个传统的计算机视觉模型,用CNN一点一点的替换,直到最后构建了一个完整的基于CNN的端到端的模型。这几篇文章有一定的连贯性。从中可以看到一种研究的趋势走向。上一篇文章...
  • 【计算机视觉—目标检测篇】持续更新,R-CNN系列、SSD、YOLO系列等等。理论+实战,手把手教学,小白也可轻松上手! ...
  • R-CNN 系列的四篇文章的一些comments, 包括:R-CNN,Fast R-CNN, Faster R-CNN,Mask R-CNN.
  • R-CNN、Fast-R-CNN和Faster-R-CNN

    千次阅读 2016-05-16 22:54:26
    R-CNN:针对区域提取做CNN的object detction。 <img src="https://pic1.zhimg.com/36bb2ec6663657eff23edcef578fe3b0_b.jpg" data-rawwidth="629" data-rawheight="220" class...
  • 三种主流经典目标检测算法Fast R-CNN, Faster R-CNN与Mask R-CNN学习笔记
  • object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸...
  • R-CNN即 Region with CNN features 与CNN模型不同的地方在于R-CNN会在之前有一个选取region的步骤 RCNN的步骤如下: 1、输入input image 2、在图像中提取大量的region proposals(可以理解为提取多个可能包含需要...
  • 原本打开2018何凯明团队发表在CVPR上的论文《Learning to segment everything》,发现这篇论文是基于Mask R-CNN,打开Mask R-CNN发现前面还有Faster R-CNN,Fast R-CNNR-CNN。初入深度学习做图像分割,所以就从R-...
  • R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN学习总结
  • 博客地址: http://blog.csdn.net/happynear/article/details/46822109 http://www.mamicode.com/info-detail-867829.html http://zhangliliang.com/2015/05/17/paper-note-fast-rcnn/ ...
  • 1. R-CNN 2. Fast R-CNN 3. Faster R-CNN
  • 版权声明:本文为博主原创文章,未经博主允许不得转载。 ... 在介绍Faster R-CNN之前,先来介绍一些前验知识,为Faster R-CNN做铺垫。 一、基于Region Propo...
  • 最近正要看Contextual Action Recognition with R*CNN,学习基于动态图像图像的行为识别,所以要恶补下它所需要的知识。 也就是目标检测常见的几种算法。 1、首先目标检测是什么? 在给定的图片中找到物体的所在...
  • 一、基于Region Proposal(候选区域)的深度学习目标检测算法 ...Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口(几千个...
  • R-CNN, Fast R-CNN, Faster R-CNN 今年四月份的时候,在一个研究院实习时学习了RCNN, Fast RCNN, Faster RCNN系列Object Detection框架,现在总结一下。 一. R-CNN(Regions with CNN features) 1.1 框架结构 ...
  • R-CNN & Fast R-CNN & Faster R-CNNR-CNN: Rich Feature Hierarchies for Accurate Object Detection and Semantic SegmentationPaper:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn Tech ...
  • 一、R-CNN 横空出世R-CNN(Region CNN,区域卷积神经网络)可以说是利用深度学习进行目标检测的开山之作,作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,2010年更是带领团队获得了终身成就奖,如今就职于...
  • R-CNN 到 Mask R-CNN : CNN在图像分离中的简史简介  我们经常使用卷机神经网络来进行图片分离(注意,不仅仅是图片分类哦),在本文中,我们将会了解如何使用卷机神经网络来做图片实例分离。从2012年Alex ...

空空如也

1 2 3 4 5 ... 20
收藏数 8,359
精华内容 3,343
关键字:

r-cnn