精华内容
下载资源
问答
  • 目标检测算法分类

    千次阅读 2021-12-07 16:54:40
    目标检测算法分类: 1、两步走的目标检测:先找出候选的一些区域,再对区域进行调整分类 代表:R-CNN、SPP-net、Fast R-CNN、Faster R-CNN 2、端到端的目标检测:采用一个网络一步到位,输入图片,输出有哪些...

    目标检测算法分类:

    1、两步走的目标检测:先找出候选的一些区域,再对区域进行调整分类

                                          代表:R-CNN、SPP-net、Fast R-CNN、Faster R-CNN

    2、端到端的目标检测:采用一个网络一步到位,输入图片,输出有哪些物体,物体在什么位置

                                           代表:YOLO、SSD

    目标检测的任务:

    分类原理:

            如下是一张CNN组成图,输入一张图片,经过其中卷积、激活、池化相关层,最后加入全连接层达到分类概率的效果。

     分类的损失与优化:

            在训练的时候需要计算每个样本的损失,那么CNN做分类的时候使用softmax函数计算结果,损失为交叉熵损失

             对于目标检测来说不仅仅是分类这样简单的一个图片输出一个结果,而且还需要输出图片中目标的位置信息,所以从分类到检测,如下图标记了过程:

    检测的任务:

    分类:

            N个类别

            输入:图片

            输出:类别标签

            评估指标:Accuracy

    定位:

            N个类别

            输入:图片

            输出:物体的位置坐标

            主要评估指标:IOU

            其中我们得出来的(x,y,w,h)有一个专业的名词,叫做bounding box(bbox) 

    物体位置:

    x,y,w,h:x,y:物体的中心点位置,以及中心点距离物体两边的长款

    xmin,ymin,xmax,ymax:物体位置的左上角、右下角坐标

    目标定位的简单实现思路:

            在分类的时候我们直接输出各个类别的概率,如果加上定位的话,我们可以考虑在 网络的最后输出加上位置信息。(增加一段全连接输出4个位置,做损失计算)

    回归位置:

    增加一个全连接层,即为FC1、FC2

    FC1:作为类别的输出

    FC2:作为这个物体位置数值的输出

             假设有10个类别,输出[p1,p2,p3,...,p10],然后输出这一个对象的四个位置信息[x,y,w,h]。同理要知道网络输出什么,如果衡量整个网络的损失

            对于分类的概率,还是使用交叉熵损失

            位置信息具体的数值,可使用MSE均方误差损失(L2损失)

    如下所示:

    两种Bounding box名称:

    在目标检测当中,对bbox主要由两种类别。

            Ground-truth bounding box:图片当中真实标记的框

            Predicted bounding box:预测的时候标记的框

    一般在目标检测当中,我们预测的框可能有多个,真实框也有很多个。

    目标检测-Overfeat模型

    滑动窗口:

    目标检测的暴力方法是从左到右、从上到下滑动窗口,利用分类识别目标。

            为了在不同观察距离处检测不同的目标类型,使用不同大小和宽高比的窗口

     注:这样就编程每张子图偏输出类别以及位置,变成分类问题。

    但是滑动窗口需要初始设定一个固定大小的窗口,这就遇到了一个问题,有些物体适应框不一样

             所以需要提前设定K个窗口,每个窗口滑动提取M个,总共K*M个图片,通常会直接将图像变形转换成固定大小的图像,变形图像块被输入CNN分类器中,提取特征后,我们使用一些分类器识别类别和该边界框的另一个线性回归器。

    Overfeat模型总结:

            这种方法类似一种暴力穷举的方法,会消耗大量的计算力量,并且由于窗口大小问题可能会造成效果不佳,但是提供了一种解决目标检测问题的思路。

    R-CNN:

            不使用暴力方法,而是用候选区域方法(region propasal method),创建目标检测的区域改变了图像领域实现五团体检测模型思路,R-CNN是以深度神经网络为基础的物体检测的模型。

    (但是对于多个目标的情况,就不能以固定个数输出物体的位置值)

     步骤(以AlexNet网络为基准)

    1、找出图片中可能存在目标的候选区域region proposal

    2、将候选区域调整为适应AlexNet网络的输入图像的大小227*227,通过CNN对候选区域提取特征向量,2000个建议框的CNN特征组合成网络Alex*Net最终输出:2000*4096维矩阵

    3、将2000*4096维特征经过SVM分类器(20种分类,SVM是二分类器,则有20个SVM),获得2000*20种类别矩阵。

    4、分别对2000*20维矩阵中进行非极大值抑制(NMS:non-maximum suppression)提出重叠建议框,得到与目标物体最高的一些建议框

    5、修正bbox,对bbox做回归微调

    CNN网络提取特征:

    在候选区域的基础上提取出更高级、更抽象的特征,这些高级特征是作为下一步的分类器、回归的输入数据。

     提取这些特征将会保存在磁盘中(这些提取的特征才是真正的要训练的数据)

    特征向量训练分类器SVM:

    1、假设一张图片的2000个候选区域,那么提取出来的就是2000*4096这样的特征向量(R-CNN当中默认CNN层输出4096特征向量)

    2、R-CNN选用SVM进行二分类。假设检测20个分类,那么会提供20个不同类别的SVM分类器,每个分类器都会对2000个候选区域的特征向量分别判断一次,这样得出[2000,20]的得分矩阵,如下图所示

    每个SVM分类器做的事情,判断2000个候选区域是某类别,还是背景

    非极大抑制(NMS):

    目的:筛选候选区域,目标是一个物体只保留一个最优的框,来抑制那些冗余的候选框

    迭代过程:

    1、对于所有的2000个候选区域得分进行概率筛选,0.5

    2、剩余的候选框

                    假设图片真实物体个数为2(N),筛选之后候选框为5(P),计算N中每个物体位置与所有P的交并比loU计算,得到P中每个候选框对应loU最高的N中一个

                    如下图,A,C候选框对应左边车辆,B,D,E对应右边车辆

     

     假如现在滑动窗口有:A、B、C、D、E5个候选框

            第一轮:对于右边车辆,假设B是得分最高的,与B的loU>0.5删除。现在与B计算loU,DE结果>0.5,剔除DE,B作为一个预测结果。

            第二轮:对于左边车辆,AC中,A的得分最高,与A计算loU,C的结果>0.5,剔除C,A作为一个结果

    最终结果为在这个5个中检测出了两个目标为A和B

    SS算法得到的物体位置已经固定了,但是我们筛选出的位置不一定就真的特别准确,需要对A和B进行最后的修正

    修正候选区域:

            那么通过非最大一直筛选出来的候选框就不一定非常准确怎么办?R-CNN提供了这样的方法,建立了一个bbox regressor

            回归用于筛选候选区域,使之回归于ground-truth,默认认为这两个框之间是线性关系,因为在最后筛选出来的候选区域和ground-truth很接近了。

    修正过程(线性回归)

     

     

    IoU交并比:

     IoU(交并比)

            两个区域的重叠程度overlap:候选区域和标定区域的IoU值

     通常Correct:类别正确且IoU>0.5

    平均精确率:

    训练样本的标记:候选框(如RCNN2000个)标记

            1、每个ground-truth box有着最高的IoU的anchor标记为正样本

            2、剩下的anchor/anchors与任何ground-truth box的IoU大于0.7记为正样本,IoU小于0.3,记为负样本

            定义:多个分类任务的AP的平均值

                    mAP=所有类别的AP之和/类别约总个数

                    注:PR曲线,而AP就是这个曲线下的面积(ROC与AUC)

    方法步骤:

            1、对于其中一个类别C,首先将算法输出的所有C类别的预测框,按预测的分数confidence排序(RCNN中就是SVM的输出分数)

            2、设定不同的k值,选择top k个预测框,计算FP和TP,计算Precision和AP

            3、将得到的N个类别的AP取平均,即得到AP;AP是针对单一类别的,mAP是将所有类别的AP求和,再取平均

    首先回顾精确率和召回率:

            左边一整个矩行中的表示ground truth之中为1的(即为正确的)数据

            右边一整个矩行中的数表示ground truh之中为0的数据

            精度precision的计算是用检测正确的数据个数/总的检测个数

     

     RCNN的缺点:

    1、训练阶段多:步骤繁琐:微调网络+训练SVM+训练边框回归器

    2、训练耗时:占用磁盘空间大:5000张图像产生几百G的特征文件(VOC数据集的检测结果,因为SVM的存在)

    3、处理速度慢:使用GPU,VGG16模型处理一张图像需要47s

    4、图像形状变化:候选区要经过crop/warp进行固定大小,无法保证图片变形

    SPPNet:

    SPPNet主要存在两点改进地方,提出了SPP层

            减少卷积计算

     

     映射:

            原始图片经过CNN变成feature map,原始图片通过选择性搜索(SS)得到了候选区域(Region of Interest),现在需要将基于原始图片的候选区域映射到feature map中特征向量。映射过程图参考如下:

     整个映射过程有具体的公式,如下

    假设(x',y')(x',y')表示特征图上的坐标点,坐标点(x,y)表示原输入图片上的点,那么他们之间有如下转换关系,这种映射关心与网络结构有关:(x,y)=(S*x',S*y'),即

    左上角的点:x'=[x/S]+1

    右下角的点:x'=[x/S]-1

    其中S就是CNN中所有的strides的乘机,包含了池化、卷积的stride。

    Fast R-CNN:

    改进地方:提出一个Rol pooling,然后整合整个模型,把CNN、Rolpooling、分类器、bbox回归几个模块整个一起训练

     步骤:

    1、首先将整个图片输入到一个基础卷积网络,得到整张图的fearure map

    2、将选择性搜索算法的结果region proposal(Rol)映射到feature map中

    3、Rol pooling layer提取一个固定长度的特征向量,每个特征会输入到一系列全连接层,得到一个Rol特征向量(此步骤是对每一个候选区域都会进行同样的操作)

            其中一个是传统softmax层进行分类,输出类别有K个类别加上“背景”类

            另一个是bounding box regressor

    Rol pooling:

            首先Rol pooling只是一个简单版本的SPP,目的是为了减少计算时间并得出固定长度的向量。

     Rol池使用最大池化将任何有效的Rol区域内的特征转换成具有H*W的固定空间范围的小feature map,其中H和W是超参数它们独立于任何特定的Rol。

    R-CNN、SPPNet、Fast R-CNN效果对比:

     

     

    展开全文
  • 目标检测 2021 /11/20

    千次阅读 2021-11-20 08:36:57
    目标检测定义 在图片中对可变数量的目标进行查找和分类 目标检测存在的三个难点 目标种类与数量问题(人群的稠密与稀疏) 目标尺度问题(行人远近的问题) 外界环境干扰问题(光照的变化,遮挡,图像的质量) 行人的...

    1. 目标检测定义

      在图片中对可变数量的目标进行查找和分类

    2. 目标检测存在的三个难点

      目标种类与数量问题(人群的稠密与稀疏)
      目标尺度问题(行人远近的问题)
      外界环境干扰问题(光照的变化,遮挡,图像的质量)
      行人的移动
      在这里插入图片描述

    3. 目标检测 vs 图像分类
      在这里插入图片描述

    目标检测:用不同的矩形框选出不同的物体,矩形框上的数字代表该物体的可信度。
    在这里插入图片描述
    图像分类:把相同的图片分成不同的类别。

    1. 目标检测,图像处理是计算机视觉基础的内容,后续会有目标跟踪,譬如:多目标跟踪,单目标跟踪等。
    2. 目标分割

    在这里插入图片描述
    在这里插入图片描述

    1 semantic segmentation 语义分割,同类用相同颜色处理。
    2 instance segmentation 实例分割,同类别也划分不同实例。
    3 二者都要在像素层面给出结果。

    目标检测的变迁

    在这里插入图片描述

    传统目标检测局限性:

    1. 设计特征很难设计,设计的特征存在各种各样的问题。
    2. 效率存在瓶颈
    3. 通过滑动窗口的方式提取目标框,费时。

    算法的基本流程

    在这里插入图片描述

    传统目标检测算法vs深度学习目标检测算法

    在这里插入图片描述

    传统目标检测算法综述

    在这里插入图片描述

    输入:待检测的图片
    候选框:滑动窗口
    特征提取:计算机视觉+模式识别 特征分为三个层次,底层特征:颜色,纹理。中层特征:基于底层特征,pca特征,lda特征。高层次特征:基于底层、中层特征,是否带帽子,是否戴眼镜。

    V-J 检测算法

    主要用于人脸识别

    Haar特征提取
    训练人脸分类器(Adaboost算法)
    滑动窗口

    Hog+SVM 检测算法(行人检测,Opencv实现)

    Hog特征提取
    Svm分类器
    滑动窗口选取

    DPM算法

    Hog的拓展
    利用SVM训练得到物体的梯度

    NMS(Non-maximum-suppression)

    在这里插入图片描述

    目的:为了消除冗余的框,找到最佳物体的检测位置
    思想:选取那些邻域里分数最高的窗口,同事抑制分数低的窗口

    展开全文
  • | 2020年5篇目标检测算法最佳综述 我们对2020年全部计算机视觉综述论文进行了分方向梳理,本文为第一篇,目标检测方向。 引言 在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与...

    转载自 https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA%3D%3D&chksm=ec1ca170db6b286683ee4897950ee799708be668f1eac63be918ab185a4ae860cc0ee411addf&idx=1&mid=2247535753&scene=21&sn=b4db91cd7395399cf59c45db3968d6d4#wechat_redirect

    大盘点 | 2020年5篇目标检测算法最佳综述

    我们对2020年全部计算机视觉综述论文进行了分方向梳理,本文为第一篇,目标检测方向。

    引言

    在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步。去年上半年,极市曾盘点过计算机视觉领域综述论文,并进行了分类整理,得到了很多读者的支持。因此,在2021年初,我们对2020年出现的全部计算机视觉综述论文进行了分方向梳理,希望能帮助大家学习进步。本文是第一篇,目标检测方向。

     

    综述一

    标题:Deep Domain Adaptive Object Detection: a Survey(深度域适应目标检测)
    作者:Wanyi Li, Peng Wang
    单位:中国科学院自动化研究所
    链接:https://arxiv.org/abs/2002.06797

    Image

    本文共梳理了46篇相关文献,由中科院自动化所学者发布。基于深度学习(DL)的目标检测已经取得了很大的进展,这些方法通常假设有大量的带标签的训练数据可用,并且训练和测试数据从相同的分布中提取。然而,这两个假设在实践中并不总是成立的。深域自适应目标检测(DDAOD)作为一种新的学习范式应运而生。本文综述了深域自适应目标检测方法的研究进展。

    深度域适应目标检测算法概述:ImageImageImage

    综述二

    标题:Foreground-Background Imbalance Problem in Deep Object Detectors: A Review(深度目标检测器中前景-背景不平衡问题综述)
    作者: Joya Chen, Tong Xu
    单位: 中国科学技术大学
    链接: https://arxiv.org/abs/2006.09238

    Image

    本文研究了不平衡问题解决方案的最新进展。分析了包括一阶段和两阶段在内的各种深度检测器中不平衡问题的特征。将现有解决方案分为两类:抽样和非抽样方案,并在COCO上进行了实验对比。

    Image

    上图总结了用于解决各种对象检测框架中的前景-背景不平衡问题的不同解决方案(即基于anchor-based one-stage, anchor-free onestage, two-stage的方法)。这些解决方案包括小批量偏差采样,OHEM,IoU平衡采样,人为丢失,GHM-C,ISA,ResObj,免采样,AP丢失,DR丢失。文章在检测管道中可视化它们的使用范围。

    Image

    上图为前景-背景不平衡问题的不同解决方案的比较。文章通过准确性(AP),相对准确性改进(∆AP),超参数的数量(参数)和效率(速度)进行了比较。

    综述三

    标题:A Review and Comparative Study on Probabilistic Object Detection in Autonomous Driving(自动驾驶中的概率目标检测方法综述与比较研究)
    作者:Di Feng,Ali Harakeh,Steven Waslander,Klaus Dietmayer
    单位:乌尔姆大学、多伦多大学
    链接:https://arxiv.org/abs/2011.10671

    Image

    近年来,深度学习已成为实际的目标检测方法,并且提出了许多概率目标检测器。然而,关于深度目标检测的不确定性估计尚无总结,而且现有方法不仅建立在不同的网络上架构和不确定性估算方法,而且还可以使用各种评估指标对不同的数据集进行评估。结果,方法的比较仍然具有挑战性,最适合特定应用的模型选择也是如此。本文旨在通过对现有的用于自动驾驶应用的概率目标检测方法进行回顾和比较研究,来缓解这一问题。

    下图为城市驾驶场景中概率对象检测的概念图。使用分类概率对每个对象进行分类,并使用置信区间预测其边界框。RGB相机图像来自BDD100k数据集。

    Image

    不确定性估计在自动驾驶中的应用及实例参考:Image

    最先进的概率目标检测器中通常包含的关键构建块的插图,包括基础网络,检测头和后处理阶段。架构图下方还列出了每个构件的可能变体。2D图像上的输出检测结果显示为类别概率(橙色),边界框平均值(红色)和边界框角协方差矩阵的95%置信度等值线(绿色)。

    Image

    概率目标检测器概述:Image

    通过测试BDD验证数据集上的检测器,不进行数据集偏移的评估。将所有七个动态对象类别的结果取平均值。对于NLL,较低的值表示较好的性能。

    Image

    综述四

    标题:An Overview Of 3D Object Detection(三维目标检测技术综述)
    作者:Yilin Wang, Jiayi Ye
    单位: 阿尔伯塔大学
    链接:https://arxiv.org/abs/2010.15614

    Image

    本文共梳理37篇相关文献。由阿尔伯塔大学学者发布。点云3D对象检测最近受到了广泛关注,并成为3D计算机视觉社区中一个活跃的研究主题。然而,由于点云的复杂性,在LiDAR(光检测和测距)中识别3D对象仍然是一个挑战。行人,骑自行车的人或交通锥等物体通常用稀疏点表示,这使得仅使用点云进行检测就相当复杂。在这个项目中,我们提出了一个使用RGB和点云数据来执行多类对象识别的框架。我们使用现有的2D检测模型来定位RGB图像上的感兴趣区域(ROI),然后在点云中进行像素映射策略,最后将初始2D边界框提升到3D空间。我们使用最近发布的nuScenes数据集(包含许多数据格式的大规模数据集)来训练和评估我们提出的体系结构。

    YOLO的3D点云中的对象检测示例:

    综述五

    标题:Camouflaged Object Detection and Tracking: A Survey(伪装目标检测与跟踪研究综述)
    作者:Ajoy Mondal
    单位: IIIT Hyderabad
    链接:https://arxiv.org/abs/2012.13581

    运动目标的检测和跟踪应用于各个领域,包括监视,异常检测,车辆导航等。关于目标检测和跟踪的文献非常丰富,然而,由于其复杂性,对伪装目标检测与跟踪的研究目前取得的进展有限。本文从理论角度回顾了基于计算机视觉算法的现有伪装目标检测和跟踪技术。还讨论了该领域中一些值得探讨的问题及未来的研究方向。

    Image

    上图为各种挑战的直观图示。(a)照明变化,(b)背景杂波,(c)部分遮挡,(d)完全遮挡,(e)物体比例改变,(f)物体方向改变,(g)伪装物体,(h )姿势变化,以及(i)不规则形状的物体。

    以上是对2020年发布的目标检测方向的综述论文的总结梳理,如有遗漏和不足之处,欢迎大家在评论区补充建议。在下篇,我们将对2020年图像分割方向的综述论文进行梳理。

    展开全文
  • CVPR2021: Sparse R-CNN新的目标检测模型

    千次阅读 2021-08-02 09:09:29
    他们为我们提供了一种新的方法,称为稀疏R-CNN(不要与 Sparse R-CNN 混淆,后者在 3D 计算机视觉任务上使用稀疏卷积),该方法在目标检测中实现了接近最先进的性能,并使用完全稀疏和可学习的方法生成边界框。...

    今天我们将讨论由四个机构的研究人员提出的一种方法,其中一个是字节跳动人工智能实验室。他们为我们提供了一种新的方法,称为稀疏R-CNN(不要与 Sparse R-CNN 混淆,后者在 3D 计算机视觉任务上使用稀疏卷积),该方法在目标检测中实现了接近最先进的性能,并使用完全稀疏和可学习的方法生成边界框。

    相关工作

    让我们从对现有检测方法的简短概述开始。

    稠密的方法

    其中一种应用广泛的方法是单级检测器,直接预测锚盒的标签和位置,稠密覆盖空间位置、尺度和纵横比,以一种一次性的方式生成分类和边界框。如SSD、YOLO等。

    让我们考虑一下YOLO算法。最终,它的目标是预测图像上的一类对象和指定对象位置的边界框。每个边界框可以用四个描述符来描述:

    1. 边界框的中心(bx, by)
    2. 宽度(bw)
    3. 身高(bh)
    4. 值c对应于一个对象的类(如:汽车、交通灯等)。

    此外,我们必须预测pc值,即在边界框中有一个物体的概率。

    它是一种稠密的方法,因为它不搜索给定图像中可能包含物体的感兴趣区域。相反,YOLO使用19×19网格将图像分割成单元格。但一般来说,一级探测器可以产生W×H细胞,每像素一个。每个细胞负责预测k个边界框(在本例中,k被选为5)。因此,我们得到了一个图像的大量W×H×k边界框。

    稠密到稀疏方法

    像Faster R-CNN论文中提出的那样,有两阶段探测器,它们利用RPN生成的稠密建议框。这些探测器多年来一直主导着现代目标探测。

    使用 RPN 从稠密区域候选中获得一组稀疏的前景建议框,然后细化每个建议的位置和预测其特定类别。

    提出了类似于单级检测器的方法,但它不是直接预测对象的类别,而是预测对象的概率。在此之后,第二阶段根据客观度和重叠得分边界框进行分类预测。

    稀疏的方法

    论文的作者将他们新的 Sparse R-CNN 范式归类为现有对象检测器范式的扩展,其中包括从完全稠密到稠密到稀疏的新步骤,从而导致彻底稀疏。

    在论文中避免使用 RPN,取而代之的是一小组建议框(例如每张图像 100 个)。 这些框是使用网络的可学习建议框部分和建议特征部分获得的。 形式预测每个建议的 4 个值 (x,y,h,w),后者预测每个 bbox 内容的长度为 256 的潜在表示向量。 学习到的建议框被用作合理的统计数据来执行之后的细化步骤,学习到的建议特征用于引入注意力机制。 这种机制与 DETR 论文中使用的机制非常相似。

    模型特性

    正如论文的名称所暗示的那样,这个模型是端到端的,架构也优雅。它包括从图像中获取特征的基于FPN的主干,上面提到的可学习的建议框和建议特征,以及Dynamic Instance Interactive Head(动态实例交互头),这是本文神经网络体系结构的主要贡献。

    Dynamic Instance Interactive Head

    给定 N 个建议框,Sparse R-CNN 首先利用 RoIAlign 操作从用建议边界框定义的每个区域的主干中提取特征。 每个 RoI 特征都被送入用于对象定位和分类的专用头部,其中每个头部都以特定的可学习建议特征为条件。

    建议特征被用作卷积的权重,在上面的图像中,它们被称为“Params”。对感兴趣区域的特征进行卷积处理,得到最终的特征。这样,那些包含大部分前景信息的边界框对最终的目标位置和分类产生影响。同时,自注意模块被嵌入到动态头部,用于推理物体之间的关系,并通过这种卷积来影响预测。

    结果

    论文作者提供了几个比较表,显示了新方法的性能。Sparse R-CNN与retanet、Faster R-CNN和DETR在ResNet50和ResNet100两种变体中进行了比较。

    我们可以看到Sparse R-CNN在R50和R100中都优于RetinaNet 和Faster R-CNN,但它的性能与基于DETR的架构非常相似。

    根据作者的说法,DETR 模型实际上是密集到稀疏模型,因为它利用一组稀疏的对象查询,与全局(密集)图像特征进行交互。与 DETR 相比这部分是论文的创新点。

    在上面图像上,您可以看到 COCO 数据集上模型推理的定性结果。 在第一列中显示了学习的建议框,它们是针对任何新图像进行预测的。 在接下来的列中,您可以看到从建议中提炼出来的最终 bbox。 它们因迭代学习过程中的阶段而异。

    代码

    总而言之,我想说,到2020年,我们会看到很多将transformers 应用于图像的论文。transformers 已经在自然语言处理领域证明了自己的价值,并逐渐进入图像处理领域。这篇论文向我们表明,使用transformers 可以创建快速的单级探测器,在质量方面与目前最好的两级探测器相当。

    关于实现的所有细节,你可以在作者基于FAIR的DETR和detectron2代码库的代码中找到:https://github.com/PeizeSun/SparseR-CNN

    引用

    [1] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks https://arxiv.org/abs/1506.01497

    [2] YOLO Algorithm and YOLO Object Detection: An Introduction https://appsilon.com/object-detection-yolo-algorithm/

    [3] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals https://arxiv.org/abs/2011.12450

    本文作者:Emil Bogomolov

    展开全文
  • 目标检测(Object Detection)

    千次阅读 2021-01-23 18:27:04
    目标检测基本概念+Yolo介绍 原文地址:https://www.yuque.com/huoxiangshouxiangwanghuo/xg3nah/giwl7l 目标检测(Object Detection) 在计算机视觉众多的技术领域中,目标检测(Object Detection)也是一项非常...
  • 各种目标检测网络

    2021-02-06 23:44:04
    检测头的改进:引入anchor anchor 是从数据集中聚类得到的,Faster-RCNN中的Anchor的宽高和大小是手动挑选的 YOLOv3 -one stage 解决小目标检测问题 看YOLO v3检测头分叉 YOLOv4 -one stage Using multi-anchors ...
  • 百度飞浆目标检测

    千次阅读 2021-11-03 15:35:01
    配环境 创建项目时,自动使用PaddlePaddle【自动安装CUDA10.1】和python3.7。 安装paddledetection(创建项目时,已经安装了paddlepaddle) #notebook中用! # 下载PaddleDetection !...# 移到work目录下,持久安装 ...
  • 2021年小目标检测最新研究综述

    千次阅读 2021-08-16 01:02:16
    作者丨高新波、莫梦竟成、汪海涛、冷佳旭编辑丨极市平台导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行...
  • 论文链接: https://arxiv.org/abs/2009.05697 项目链接: https://github.com/nightsnack/YOLObile 备注:目标检测 目标检测交流群 2D、3D目标检测最新资讯,若已为CV君其他账号好友请直接私信。 我爱计算机视觉...
  • 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达1简介构建在深度卷积上的Inverted bottleneck layers已经成为移动设备上最先进目标检测模型的主要构建模块。在这...
  • 深度域适应目标检测算法概述: 综述二 标题:Foreground-Background Imbalance Problem in Deep Object Detectors: A Review(深度目标检测器中前景-背景不平衡问题综述) 作者: Joya Chen, Tong Xu 单位: 中国...
  • 本文为检索该领域文章后做的简单记录,没有模型结构的详细介绍,不过其中两三篇文章已是目前目标检测领域的SOTA(截止到21年8月)! a、End-to-End Object Detection with Transformers:最早将Transformer带入到...
  • 深度学习中,为了提高模型的精度和泛化能力,往往着眼于两个方面:(1)使用更多的数据(2)使用更深更复杂的网络。 ** 一、什么是负样本 ...通俗地讲就是告诉检测器,这些“不是你要检测目标”。 3.F
  • 目标检测

    千次阅读 2021-12-14 10:22:48
    目标检测 参考论文:地址 小目标定义 相对尺度定义 从目标与图像的相对比对小目标进行定义。Chen等提出了一个针对小目标的数据集,对小目标进行定义:同一类别中,所有目标实例的相对面积,即边界框面积与图像...
  • YOLOv5 小目标检测、无人机视角小目标检测

    千次阅读 热门讨论 2021-12-06 19:10:54
    YOLOv5 训练自己的小目标检测
  • 遮挡 目标检测

    2021-07-11 10:36:04
    Repulsion Loss: Detecting ...Repulsion Loss 遮挡场景下的目标检测 yolo loss: https://github.com/AAA-Fan/Repulsion_loss_yolo_pytorch/blob/ba4db86b9980438f7a76e47e246d79fe90092516/utils.py ...
  • 目标检测-小目标检测涨点方法

    千次阅读 2021-01-18 12:28:36
    文章目录一、图片输入层面1. 数据增强策略2....增加包含小目标样本的采样率,缓解了训练过程中包含小目标图片较少的这种不均衡; 将小目标在同一张图像中多拷贝几次;增加了匹配到小目标GT的anch
  • 单目3D目标检测之入门

    千次阅读 2021-11-19 23:11:53
    单目3D目标检测入门 1. 单目3D目标检测的意义: 3D目标检测领域有哪些任务和方法? 为了更直观,我画了一个思维导图:https://www.mubucm.com/doc/i9QW47JQS3 在3D目标检测领域,根据输入信息的不同,大致可分为三类...
  • 旋转目标检测综述

    2021-10-25 14:29:14
    DRBOX(两阶段目标检测 中科院电子所) 6. TextBoxes++(单阶段 华科白翔组) 7. Learning roi transformer for oriented object detection in aerial images(cvpr2019 武大夏桂松 两阶段) 8. R2PN
  • Pytorch目标检测实现

    千次阅读 2021-12-02 20:48:44
    torchvision库中已存在目标检测的相应模型,只需要调用相应的函数即可。 1. 单文件: ## 导入相关模块 import numpy as np import torchvision import torch import torchvision.transforms as transforms from PIL ...
  • 本文发表于第32届神经信息处理系统会议(NIPS 2018),是法国汽车零部件供应商法雷奥集团(Valeo)研究提出的一种用于自动驾驶领域的多任务神经网络,可同时执行目标检测与语义分割任务。
  • 由于现实世界数据的长尾分布和削减数据收集和注释成本的迫切需求,学习适应具有少量标记数据的新类的少样本目标检测是一个迫切和长期的问题。近年来,一些研究探讨了如何在不需要目标域监督的情况下,在额外数据集中...
  • 为了提高小目标检测的准确性,我们提出了一种基于上下文的目标检测方法。该方法通过融合多尺度特征,利用不同层次的附加特征作为上下文信息。我们还提出了一种基于注意力机制的目标检测方法,该方法能够聚焦于图像中...
  • 睿智的目标检测53——Pytorch搭建YoloX目标检测平台

    万次阅读 多人点赞 2021-09-25 20:20:25
    睿智的目标检测53——Pytorch搭建YoloX目标检测平台学习前言源码下载YoloX改进的部分(不完全)YoloX实现思路一、整体结构解析二、网络结构解析1、主干网络CSPDarknet介绍2、构建FPN特征金字塔进行加强特征提取3、...
  • 作为计算机视觉领域的一项重要任务,目标检测是要找到一张图片里的感兴趣物体: 这比图像分类任务更高级,因为分类只需要告诉图像中主要物体是什么,然而目标检测要找到多个物体,不仅要分类,而且要定位出它们在...
  • 目标检测损失函数

    千次阅读 2021-12-08 22:36:50
    损失由两部分组成,分别是类别误差损失以及定位误差损失。 1、分类损失 采用一个二分类的softmax loss用来做分类,分类损失如下: ...其中x、y、w、h分别为目标的中心点及宽高,ti为真值、ui为对...
  • Encoder-Decoder 简介:Encoder-Decoder 的缺陷:Attention 机制:Self-Attention 机制:Multi-Head Attention:Transformer 结构:图像分类之ViT:图像分类之Pyramid ViT:目标检测之DETR:目标检测之Deformable ...
  • 目标检测算法推荐

    2021-07-13 23:44:25
    YOLTv4被设计用于在任意大的图像中检测航空或卫星图像中的目标,这些图像远远超过深度学习目标检测框架通常接收到的~600×600像素大小。 这个存储库是建立在AlexeyAB的YOLOv4实现令人印象深刻的工作之上的,与YOLOv...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 596,148
精华内容 238,459
关键字:

最新目标检测