精华内容
下载资源
问答
  • 目的 复杂背景中的红外小目标检测易受...结论 本文将超像素图像分割与尺度理论引入低秩约束与稀疏表示联合模型,能够取得更好的背景抑制效果,并且可以适应不同大小目标检测,实现复杂背景中红外小目标的准确检测
  • 用于对象协同分割的条件随机场,论文分享。
  • 可使所想要的参考图像目标像之间的互相关峰与不想要的直流项、各目标图像之间的互相关峰以及谐波峰输出在不同的平面上,从而提高对多目标检测的准确度,给出对具有灰度级的多目标输入景物的计算机模拟结果。
  • 在传统的基于波前探测的解卷积方法中, 由波前探测得到的点扩展函数被认为是精确的, 并用维纳滤波进行复原, 但是点扩展函数不可避免地存在误差, 所以最终的复原目标图像质量不佳。为了解决该难题, 提出了基于目标和点...
  • 随机产生一相位码对参考图像编码,与目标图像叠加作为输入图像,通过傅里叶变换得到联合功率谱,用同样的相位码对其编码并进行滤波,傅里叶逆变换后得到涉及位移矢量的互相关峰。给出了图像间位移矢量的探测技术...
  • 基于一种改进的跨层级特征融合的循环全卷积神经网络, 提出了一种结合深度学习的图像显著目标检测算法。通过改进的深度卷积网络模型对输入图像进行特征提取, 利用跨层级联合框架进行特征融合, 生成了高层语义特征的...
  • 姊妹篇:ILSVRC2016目标检测任务回顾——视频目标检测(VID) 计算机视觉领域权威评测——ImageNet大规模图像识别挑战赛(Large Scale Visual Recognition Challenge)自2010年开始举办以来,一直备受关注。...

    姊妹篇:ILSVRC2016目标检测任务回顾——视频目标检测(VID

            计算机视觉领域权威评测——ImageNet大规模图像识别挑战赛(Large Scale Visual Recognition Challenge)自2010年开始举办以来,一直备受关注。2016年,在该比赛的图像目标检测任务中,国内队伍大放异彩,包揽该任务前五名(如图1所示)。我们将根据前五名参赛队伍提交的摘要与公开发表的论文或技术文档,简析比赛中用到的图像目标检测方法。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图1. ILSVRC2016目标检测(无额外数据)任务比赛结果

    总体上说,参赛队伍大多采用ResNet/Inception网络+Faster R-CNN框架,注重网络的预训练,改进RPN,并利用Context信息,测试时结合普遍被使用的多尺度测试、水平翻转、窗口投票等方法,最终融合多个模型得到结果。

    下面我们将细数参赛方法中的诸多亮点。

    一、利用Context信息

    1、GBD-Net

    GBD-Net(Gated Bi-Directional CNN)是CUImage团队的成果,也是今年DET任务中的一大亮点。该方法利用双向门控的CNN网络在不同尺度的上下文窗口中选择性地传递信息,以此对context建模。

    GBD-Net的研究动机源于对context信息在候选窗口分类过程中起到的作用的仔细分析。首先,Context信息在对窗口分类时能起到关键的作用,如图2(a)(b)所示,图中的红框必须结合Context信息才能准确判断其类别(包括判断为背景)。所以很多时候,我们可以利用context信息作出如图1(c)所示的判断。但是如图1(d)所示,并不是所有的context信息都能给我们正确的指导,所以context信息需要选择性的利用。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图2. GBD-Net的研究动机

    基于这一点,CUImage提出了GBD-Net。如图3所示,GBD-Net采集Context信息的方式与[2][3]一脉相承,直接在目标窗口基础上放大窗口以获得更多的context信息,或缩小窗口以保留更多的目标细节,以此得到多个support region,双向连接的网络让不同尺度和分辨率的信息在每个support region之间相互传递,从而综合学习到最优的特征。然而如研究动机中所说,并非所有的上下文信息都能给决策带来“正能量”,所以在双向互通的连接上都加了一个“门”,以此控制context信息的相互传播。GBD-Net在ImageNet DET数据集上,在ResNet-269为基础网络,带来了2.2%的mAP提升。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图3. GBD-Net框架图

    2、Dilation as context

    360+MCG-ICG-CAS_DET团队将用膨胀卷积获取context信息的方法迁移至目标检测任务,将8个膨胀卷积层削减到3层,在ROI pooling前就组织好每个像素点对应的context信息,如图4,省去了对每个ROI反复提取context特征的操作。该方法在VOC07数据集上,以Res50为基础网络,能获得1.5%的提升。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图4. Dilation as context方法示意图

    3、Global context

    2015年提出利用ROI pooling对全图进行pooling获取context信息的方法,Hikvision团队在此基础上进一步细化,提出了图5(a)所示的global context方法,在ILSVRC DET验证集上获得了3.8%的mAP性能提升。该方法此前的文章中有详细描述,此处不再赘述。

    除了基于ROI pooling的global context方法,CUImage沿用[6]中提到的global context方法,为每个ROI加入全局的分类结果信息,如图5(b)示。该方法在GBD-net局部context的基础上又加入了全局的context信息,进一步将mAP提高了1.3%。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图5. Global context方法示意图

    二、改进分类损失

    360+MCG-ICG-CAS_DET团队提出了两种改进的softmax损失:将背景类分成若干隐式子类别(Implicit sub-categories for background)、必要时加入sink类别(Sink class when necessary)

    Faster R-CNN中将所有与Ground Truth的IOU大于0.5的窗口当做正样本,IOU介于0.1~0.4之间的当做背景类别样本,所以虽然正常目标类别的样本之间有较大的相似性,但背景类别的样本之间差异却非常大,在这种情况下,仍然同等对待目标类别和背景类别对背景类别来说是不公平的。所以背景隐式子类别方法将背景类别分为若干个子类别,想让更多的参数去描述多变的背景,在softmax之前重新将所有子类别聚合为一个背景类,以避免显式定义各个子类别的问题(如图6(a)所示)。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图6 改进分类损失

    另外,由于训练数据本身的一些冲突性(比如同样的图像内容在不同场景下会同时成为正样本和负样本,或不同类别的样本之间非常相似),对于某些窗口,ground truth类别的得分始终不是很高,而其他一些错误类别的得分会超过ground truth类别。所以sink方法加入一个sink类,在ground truth得分不在Top-K时,同时优化sink类别和ground truth类别,否则正常优化ground truth类别。以此将那些错误类别上的得分引流到sink类别上,使得在对窗口分类时,即使ground truth类别得分不是特别高,仍然可以高于其他类别,如图6(b)所示。

    三、改进RPN

    CUImage和Hikvision都提出改进RPN,并且两者的改进策略都源于CRAFT(如图7所示),在RPN之后再连接一个二分类的Fast R-CNN,进一步减少窗口数量并提高定位精度。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图7 CRAFT

    CUImage进一步将CRAFT升级为CRAFT-v3,训练过程加入随机crop,测试中采取多尺度策略,并且平衡正负样本比例,用2个模型进行融合,将ILSVRC DET val2上的recall@300 proposal提升到95.3%。

    Hikvision则是直接按照box refinement的思想,直接在RPN网络基础上进行一次级联,如图8所示。同时他们注意到,Faster R-CNN在理想情况下希望PRN的正负样本比是1:1,而实际运行中,正样本数量往往较少,使得正负样本比差异较大,所以将正负样本比强制限制在不超过1:1.5后,recall提升3%。

    ILSVRC2016目标检测任务回顾:图像目标检测(DET)

    图8 级联的RPN

    四、网络选择与训练技巧

    自ILSVRC2015后,ResNet和后续的Inception v4,Identity mapping由于其强大的分类性能,被广泛使用到目标检测、场景分割等应用中。不同的网络通常能收敛到不同的极值点,这种网络差异性是模型融合获得较大提升的关键。CUImage、Hikvision、Trimps Soushen、360+MCG-ICT-CAS_DET、NUIST都用不同的基础网络训练了多个模型用于融合。

    在训练目标检测模型之前,具有针对性的模型预训练通常可以使得最后训练的目标检测模型能收敛到更优的位置。Hikvision提到在初始化global context的分支时使用预训练的模型效果远远好于随机初始化。另外,他们用ILSVRC LOC的数据首先在1000个类别上预训练一个精细分类的目标检测模型,再迁移到DET数据上训练200类的模型。CUImage同样提到模型预训练的重要性。他们在1000类Image-centric方式训练分类网络后,又采取基于ROI-Pooling的Object-centric方式训练分类网络,预训练网络使最终目标检测模型的mAP提升约1%。

    此外,Hikvision提出在训练过程中强制平衡正负样本比会产生积极的影响。OHEM、多尺度训练等技巧都是简单有效的提高mAP的方式。

    五、测试技巧

    测试过程中可采用的技巧很多,会对最终目标检测结果起到锦上添花的作用。多尺度测试、水平翻转、窗口微调与多窗口投票、多模型融合、NMS阈值调整、多模型融合等方法被广泛使用,并经过普遍验证证明了其有效性。

    Trimps Soushen、360+MCG-ICT-CAS_DET采用了Feature Maxout的方法融入多尺度测试,尽量让每个窗口都缩放到接近224x224的尺度上进行测试,充分利用预训练网络的性能。窗口微调与多窗口投票(box refinement and box voting)方法首先利用Fast R-CNN系列框架中对窗口进行回归的这个过程,反复迭代,然后用所有窗口投票,决定最终的目标类别与位置。在往年比赛中很少提到目标检测如何进行模型融合,ILSVRC2016中,CUImage、Hikvision、Trimps Soushen、360+MCG-ICT-CAS_DET都采用了几乎一致的融合策略,即先用一个或多个模型的RPN网络产生固定的ROI,再把这些ROI经过不同模型得到的分类和回归结果相加,得到最终的融合结果。经过多种融合方法的实验,分数相加的方式能获得较好的融合性能。

    总结

    本文对2016年ILSVRC DET任务中用到的方法进行了概括性的归纳和介绍。目标检测系统步骤甚多,过程繁琐,其中的每一个细节都非常重要。研究过程中,在把握整体结构的同时,如何处理好重要的细节会成为一种方法是否有效的关键。

    thx作者李瑜,中科院计算所前瞻研究实验室跨媒体组硕博士生,硕士导师唐胜副研究员,博士导师李锦涛研究员。2016年,作为360+MCG-ICT-CAS_DET团队核心主力参加了ImageNet大规模视觉识别挑战赛(ILSVRC)的 DET任务并获得第四名。目标检测相关工作受邀在ECCV 2016 ImageNet和COCO视觉识别挑战赛联合工作组会议上做大会报告。

    展开全文
  • 图像处理之目标检测

    千次阅读 2018-07-18 00:05:00
     传统的目标检测方法通常可以分为三个阶段:首先在给定的图像上选择一些候选区域,然后对这些区域进行特征提取,最后使用训练的分类器进行分类,其中人工提取特征的好坏直接影响到分类及检测的准确性,由于实际图像...

      目标检测的发展历程可以分为3个阶段:

      1.传统的目标检测方法

       传统的目标检测方法通常可以分为三个阶段:首先在给定的图像上选择一些候选区域,然后对这些区域进行特征提取,最后使用训练的分类器进行分类,其中人工提取特征的好坏直接影响到分类及检测的准确性,由于实际图像受光照及背景影响较大,人工特征提取往往存在一定局限性.

       传统的目标检测算法中比较好的模型为DFM,其将物体视为由多个物件组成,用物件间的关系来描述物体,可看作为HOG+SVM的扩展,很好的继承了两者的优点,同时在人脸检测,行人检测等任务上取得了不错的效果.

    • SIFT

       Paper: SUMMARY: DISTINCTIVE IMAGE FEATURES FROM SCALE-INVARIANT KEYPOINTS

       SIFT算法于1999年被David Lowe提出,并于2004年进行了补充和完善,此后广泛应用于目标识别,自动导航,图像拼接,三维建模,手势识别,视频跟踪等.

       SIFT全称Scale-Invariant Featuure Transform,即对图像的尺度和旋转能够保持不变性,同时对于亮度变化具有很强的鲁棒性,对于噪声和视角的微小变化也能保持一定的稳定性.

       SIFT算法可以分为4个阶段[1]: 

      1).尺度空间极值检测:该阶段是在图像的全部尺度和全部位置上进行搜索,并通过应用高斯差分函数可以有效地识别出尺度不变性和旋转不变性的潜在特征点来; 
      2).特征点的定位:在每个候选特征点上,一个精细的模型被拟合出来用于确定特性点的位置和尺度。而特征点的最后选取依赖的是它们的稳定程度; 
      3).方向角度的确定:基于图像的局部梯度方向,为每个特性点分配一个或多个方向角度。所有后续的操作都是相对于所确定下来的特征点的角度、尺度和位置的基础上进行的,因此特征点具有这些角度、尺度和位置的不变性; 
      4).特征点的描述符:在所选定的尺度空间内,测量特征点邻域区域的局部图像梯度,将这些梯度转换成一种允许局部较大程度的形状变形和亮度变化的描述符形式。
    • SURF

       Paper: SURF:Speeded Up Robust Features 

       SURF算法于2006年被Herbert Bay等人提出,并于2008年进行了完善,该算法的部分灵感来自于SIFT算法,具有重复性高的检测器和可区分性好的描述特点外,还有很强的鲁棒性以及更高的执行速度.

       SURF全称Speeded Up Robust Features,在保证正确性的前提下进行了简化和近似,并且多次运用积分图像的概念,因此在效率上比SIFT快3倍以上.

       SURF算法可以分为几个阶段[2]:    

      特征点检测
       1).基于Hessian矩阵的特征点检测
       2).尺度空间表示
       3).特征点定位
      特征点描述
       1).方向角度分配
       2).基于Haar小波的特征点描述符
    • FAST

         Paper: Machine learning for high-speed corner detection

       FAST 算法可以分为几个阶段:

      1).在图像中任选一点p,假定其像素(亮度)值为 Ip.
      2).以3为半径画圆,覆盖p点周围的16个像素.
      3).设定阈值t,如果这周围的16个像素中有连续的n个像素的像素值都小于Ip−t或者有连续的n个像素都大于Ip+t,那么这个点就被判断为角点。在OpenCV的实现中n取值为12(16个像素周长的 3/4),也称
      4).一种更加快的改进是:首先检测p点周围的四个点,即1,5,9,12四个点中是否有三个点满足超过Ip+t,如果不满足,则直接跳过,如果满足,则继续使用前面的算法,全部判断16个点中是否有12个满足条件.
      

       FAST的特点是:

      1).在速度上要比其他算法速度快很多
      2).受图像噪声以及设定的阈值影响很大
      3).FAST不产生多尺度特征而且FAST特征点没有方向信息,这样就会失去旋转不变性
      4).存在的缺点:可能大部分检测出来的点彼此相邻,需要使用非极大值抑制方法
    • ORB

       Paper: ORB: An efficient alternative to SIFT or SURF

       ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点提取和描述的算法,由Ethan Rublee,Vincent Rabaud,Kurt Konolige及Gary R.Bradski提出.

       ORB特征是将FAST特征点的检测方法与BRIEF特征描述子结合起来,并在它们原来的基础上作了改进和优化,ORB运行速度是SIFT的100倍,是SURF的10倍.

       ORB算法分为两部分,分别是特征点提取和特征点描述,特征提取由FAST算法发展而来,特征点描述根据BRIEF算法改进而来.

      1).oFAST特征提取
        由FAST算法改进而来,在使用FAST算法提取特征点之后,给定一个特征点反向,以实现特征点的旋转不变性
      2).rBRIEF特征描述
        rBRIEF是在BRIEF特征描述的基础上加入旋转因子改进的

      2.以R-CNN为代表的结合region proposal和CNN分类的目标检测框架

       目标检测通常可以看作一个分类任务和回归任务,即解决物体属于"哪一类"以及"在哪里"的问题,通常的思路是:

      1).搭建一个识别图像的神经网络,例如以AlexNet,VGGNet以及GoogLeNet为baseline并进一步fine-tune
      2).在调试好的神经网络的尾部展开(加上"分类头"和"回归头"),成为classification+regression模式
      3).regression部门使用欧式距离计算损失,使用SGD进行训练
      4).在预测阶段将2个头接上
    • R-CNN

       Paper: Rich feature hierarchies for accurate object detection and semantic segmentation

      1).输入测试图像; 
      2).利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal;
      3).将每个Region Proposal缩放(warp)成227*227的大小并输入到CNN,将CNN的fc7层的输出作为特征;
      4).将每个Region Proposal提取的CNN特征输入到SVM进行分类; 
      5).对于SVM分好类的Region Proposal做边框回归,用Bounding box回归值校正原来的建议窗口,生成预测窗口坐标. 

       缺陷 

      1).训练分为多个阶段,步骤繁琐:微调网络+训练SVM+训练边框回归器;
      2).训练耗时,占用磁盘空间大;5000张图像产生几百G的特征文件;
      3).速度慢:使用GPU,VGG16模型处理一张图像需要47s;
      4).测试速度慢:每个候选区域需要运行整个前向CNN计算;
      5).SVM和回归是事后操作,在SVM和回归过程中CNN特征没有被学习更新.
    • SPP-Net

       Paper: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    • Fast R-CNN  

       Paper: Fast R-CNN

      1).输入测试图像;
      2).利用selective search 算法在图像中从上到下提取2000个左右的建议窗口(Region Proposal);
      3).将整张图片输入CNN,进行特征提取;
      4).把建议窗口映射到CNN的最后一层卷积feature map上;
      5).通过RoI pooling层使每个建议窗口生成固定尺寸的feature map;
      6).利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练.

       相比R-CNN的改进 

      1).测试速度:
        R-CNN把一张图像分解成大量的建议框,每个建议框拉伸形成的图像都会单独通过CNN提取特征.实际上这些建议框之间大量重叠,特征值之间完全可以共享,造成了运算能力的浪费.
        Fast R-CNN将整张图像归一化后直接送入CNN,在最后的卷积层输出的feature map上,加入建议框信息,使得在此之前的CNN运算得以共享.
    
      2).训练速度:
        R-CNN在训练时,是在采用SVM分类之前,把通过CNN提取的特征存储在硬盘上.这种方法造成了训练性能低下,因为在硬盘上大量的读写数据会造成训练速度缓慢.
        Fast R-CNN在训练时,只需要将一张图像送入网络,每张图像一次性地提取CNN特征和建议区域,训练数据在GPU内存里直接进Loss层,这样候选区域的前几层特征不需要再重复计算且不再需要把大量数据存储在硬盘上.
    
      3).训练空间:
        R-CNN中独立的SVM分类器和回归器需要大量特征作为训练样本,需要大量的硬盘空间.
        Fast R-CNN把类别判断和位置回归统一用深度网络实现,不再需要额外存储.
    • Faster R-CNN

       Paper: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

      1).输入测试图像;
      2).将整张图片输入CNN,进行特征提取;
      3).用RPN生成建议窗口(proposals),每张图片生成300个建议窗口;
      4).把建议窗口映射到CNN的最后一层卷积feature map上;
      5).通过RoI pooling层使每个RoI生成固定尺寸的feature map;
      6).利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练. 

       相比Fast R-CNN的改进 

      1).建议框的产生
        Faster R-CNN创造性地采用卷积网络自行产生建议框,并且和目标检测网络共享卷积网络,使得建议框数目从原有的约2000个减少为300个,且建议框的质量也有本质的提高.
    • R-FCN

       Paper: R-FCN: Object Detection via Region-based Fully Convolutional Networks

    • Mask R-CNN

       Paper: Mask R-CNN

      3.以YOLO为代表的将目标检测转换为端到端的目标检测框架

    • YOLO

       Website: https://pjreddie.com/darknet/yolov1/

       Paper: You Only Look Once: Unified, Real-Time Object Detection

    • YOLO v2

       Website: https://pjreddie.com/darknet/yolov2/

       Paper: YOLO9000: Better, Faster, Stronger 

    • YOLO v3

       Website: https://pjreddie.com/darknet/yolo/

       Paper: YOLOv3: An Incremental Improvement

       Code: https://github.com/pjreddie/darknet

    • SSD

       Paper: SSD: Single Shot MultiBox Detector

     

    转载于:https://www.cnblogs.com/WaitingForU/p/9064338.html

    展开全文
  • 提出一种使用振幅调制和功率谱相减的联合变换相关器(JTC)作多目标检测。这一方法对联合功率谱作了修正,先将联合功率谱减去纯输入景物的功率谱和参考图象的功率谱,再将所得修正的联合功率谱(JIS)乘以振幅调制滤波(AMF...
  • 最后,设计一种联合优化方法对任务的目标函数进行优化,使其更快更好地收敛.在SAR图像舰船检测数据集SSDD上的实验结果显示,所提出的方法相比于原始Fast R-CNN和Faster R-CNN检测方法,检测精度从65.2%和70.1%提高到...
  • 航空遥感图像(Aerial Images)目标检测数据集汇总

    万次阅读 多人点赞 2017-12-18 16:17:40
    常规目标检测数据集有很,现在前沿的目标检测算法(如Faster R-CNN, Yolo, SSD, Mask R-CNN等)基本都是在这些常规数据集上实验的,但是,基于常规数据集训练的分类器,在航空遥感图像上的检测效果并不好,主要...

    常规目标检测数据集有很多,现在前沿的目标检测算法(如Faster R-CNN, Yolo, SSD, Mask R-CNN等)基本都是在这些常规数据集上实验的,但是,基于常规数据集训练的分类器,在航空遥感图像上的检测效果并不好,主要原因是航空遥感图像有其特殊性:

    1,尺度多样性,航空遥感图像从几百米到近万米的拍摄高度都有,且地面目标即使是同类目标也大小不一,如港口的轮船大的有300多米,小的也只有数十米;

    2,视角特殊性,航空遥感图像的视角基本都是高空俯视,但常规数据集大部分还是地面水平视角,所以同一目标的模式是不同的,在常规数据集上训练的很好的检测器,使用在航空遥感图像上可能效果很差;

    3,小目标问题,航空遥感图像的目标很多都是小目标(几十个甚至几个像素),这就导致目标信息量不大,基于CNN的目标检测方法在常规目标检测数据集上一骑绝尘,但对于小目标,CNN的Pooling层会让信息量进一步减少,一个24*24的目标经过4层pooling后只有约1个像素,使得维度过低难以区分出来;

    4,多方向问题,航空遥感图像采用俯视拍摄,目标的方向都是不确定的(而常规数据集上往往有一定的确定性,如行人、车辆基本都是立着的),目标检测器需要对方向具有鲁棒性;

    5,背景复杂度高,航空遥感图像视野比较大(通常有数平方公里的覆盖范围),视野中可能包含各种各样的背景,会对目标检测产生较强的干扰。

    基于以上原因,对于航空遥感图像目标检测任务,常规数据集往往难以训练出理想的目标检测器,需要专门的航空遥感图像数据库。我整理了几个:

    1,DOTA:A Large-scale Dataset for Object Detection in Aerial Images,arXiv:1711.10398v1  [cs.CV]  28 Nov 2017。这是武大遥感国重实验室夏桂松和华科电信学院白翔联合做的一个数据集,2806张遥感图像(大小约4000*4000),188,282个instances,分为15个类别。样本类别及数目如下(与另一个开放数据集NWPU VHR-10对比):

    数据集下载:http://captain.whu.edu.cn/DOTAweb/

     

    2,UCAS-AOD: Dataset of Object Detection in Aerial Images,中国科学院大学模式识别与智能系统开发实验室标注的,只包含两类目标:汽车,飞机,以及背景负样本。样本数量如下:

    相关链接:http://www.ucassdl.cn/resource.asp

    DownLoad: Dataset 及其基本情况概述Instruction Instruction-cn 

    References:[1]H. Zhu, X. Chen, W. Dai, K. Fu, Q. Ye, J. Jiao, "Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network," IEEE Int'l Conf. Image Processing, 2015.

     

    3,NWPU VHR-10:西北工业大学标注的航天遥感目标检测数据集,共有800张图像,其中包含目标的650张,背景图像150张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆10个类别。开放下载,大概73M.

    相关链接:http://jiong.tea.ac.cn/people/JunweiHan/NWPUVHR10dataset.html

     

    4, RSOD-Dataset:武汉大学团队标注,包含飞机、操场、立交桥、 油桶四类目标,数目分别为:

    飞机:4993 aircrafts in 446 images. 操场: 191 playgrounds in 189 images. 立交桥: 180 overpass in 176 overpass.

    油桶:1586 oiltanks in 165 images.

    链接:https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-

     

    5, INRIA aerial image dataset: Inria是法国国家信息与自动化研究所简称,该机构拥有大量数据库,其中此数据库是一个城市建筑物检测的数据库,标记只有building, not building两种,且是像素级别,用于语义分割。训练集和数据集采集自不同的城市遥感图像。链接:https://project.inria.fr/aerialimagelabeling/

    为了方便大家下载,UCAS-AODNWPU VHR-10的下载链接还可以登录我的个人百度云盘:https://pan.baidu.com/s/1bplTvif 密码:ppef

    展开全文
  • 1、图像分类图像分类主要是基于图像的内容对图像进行标记,通常会有一组固定的标签,而你的模型必须预测出最适合图像的标签。这个问题对于机器来说相当困难的,因为它看到的只是图像中的一组数字流。 上图片来自于...

    1、图像分类

    图像分类主要是基于图像的内容对图像进行标记,通常会有一组固定的标签,而你的模型必须预测出最适合图像的标签。这个问题对于机器来说相当困难的,因为它看到的只是图像中的一组数字流。

     

    上图片来自于Google Images


    而且,世界各地经常会举办多种多样的图像分类比赛。在Kaggle中就可以找到很多这样的竞赛。最著名的比赛之一就是ImageNet挑战赛。ImageNet实际上是一个很神奇的图像库(截止到编辑本文时,其中就约有1400万张图像),拥有超过20000个图像标签。这是由斯坦福大学计算机视觉实验室维护的。ImageNet挑战或大规模视觉识别挑战(LSVRC)都是一个年度竞赛,其中具有诸如目标分类,目标检测和目标定位等各种子挑战。LSVRC,特别是目标分类的挑战,自从2012年,Alex Krizhevsky实施了著名的AlexNet,将图像的错误率降低到15.7%(在当时从未实现),便开始获得了很多关注。而最新的结果显示,微软ResNet的错误率为3.57%,Google的Inception-v3已经达到3.46%,而Inception-v4则又向前进了一步。


    来源于Alfredo Canziani,Adam Paszke和Eugenio Culurciello于2017年撰写的文章《实际应用中深度神经网络模型的分析》(https://arxiv.org/pdf/1605.07678.pdf)


    2、目标检测

    图像中的目标检测涉及识别各种子图像并且围绕每个识别的子图像周围绘制一个边界框。这里有一个例子:

     

    上图片来自于Google Images


    与分类相比,这个问题要稍微复杂一点,你必须对图像进行更多的操作和处理。现在最著名检测方法叫做Faster-RCNN。RCNN是局部卷积神经网络,它使用一种称为候选区域生成网络(Region Proposal Network,RPN)的技术,实际上是将图像中需要处理和分类的区域局部化。后来RCNN经过调整效率得以调高,现在称之为faster – RCNN,一种用作候选区域生成方法的一部分用以生成局部的卷积神经网络。目前最新的image-net挑战(LSVRC 2017)有一个目标检测的挑战赛的冠军,被一个名为“BDAT”的团队所囊括,该团队包括来自南京信息工程大学和伦敦帝国理工学院的人员。


    3、图像/实例分割

    图像分割或实例分割包括对具有现有目标和精确边界的图像进行分割。

     

    图片来自于是Google Images


    它使用了一种叫做Mask R-CNN的技术,实际上就是我们前面看到的R-CNN技术上的几个卷积层。微软、Facebook和Mighty AI联合发布了这个称为COCO的数据集。它与ImageNet很相似,但它主要用于分割和检测。

    展开全文
  • 航空航天遥感图像目标检测数据集汇总

    万次阅读 多人点赞 2018-11-28 10:44:17
    1.DOTA:A Large-scale Dataset for Object Detection in Aerial Images。这是武大遥感国重实验室夏桂松和华科电信学院白翔联合做的一个数据集,2806张遥感图像(大小约4000*4000),188,282个instances,分为15...
  • https://medium.com/the-downlinq/you-only-look-twice-multi-scale-object-detection-in-satellite-imagery-with-convolutional-neural-38dad1cf7571你只看两次 - 用卷积神经网络进行卫星图像多尺度目标检测(第一...
  • 目标检测任务简单来说是在图片或视频中指出个特定目标并以方框形式给出这些物体在图片中的位置和大小。它与我们的生活密切相关,它被广泛应用于安全识别、无人驾驶、医疗诊断、图像检索等领域,并且未来将愈发重要...
  • 本文介绍一种利用学习字典稀疏表示HSI(Hyperspectral Imagery)数据进行高光谱图像目标检测的算法。主要应用于对full-pixel target的检测。主要内容有稀疏表示、学习字典的概念、两种用于目标检测的模型和一种获取...
  • 提出一种使用功率谱相减的实时联合变换相关器作多目标检测。使用这种方法,输入面有两套联合图像。在第二套联合图像中,参考图像是对比度反转的。使用衍射光栅对这两套联合功率谱作相减处理,这种方法可大大抑制输出面...
  • 从网上搜了些论文来看( ...后处理中用形态学来对像素进行联合组件标签得到目标。文章中还对 DBNs 和 BNs 进行对比实验。实验证明 DBN 性能更好。这是因为在视频中, DBN 还具有时间上的比较 。
  • 图像识别之目标检测(3)

    千次阅读 2019-07-31 13:07:28
    目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。为了完成这两个任务,目标检测模型分为两类。一类是two-stage,将...
  • 原始连接: ...   你只看两次 - 用卷积神经网络进行卫星图像多尺度目标检测(第一部分) 大面积小物体的...
  • 提出一种修正振幅调制的光电混合圆谐联合变换相关器作旋转不变的目标检测的实验系统。 参考图像(即圆谐展开分量的实部和虚部)、 圆盘状的局部偏置函数以及目标图像同时显示于输入面。 此方法对联合功率谱作了修正, ...
  • 图像分割、目标检测 MASK R-CNN 论文阅读笔记原文: MASK R-CNN 作者: Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick 下载地址: https://arxiv.org/abs/1703.06870 1 简介 作者提出的Mask R-CNN...
  • 资源总共包含2283张联合收割机图像,标注仔细,质量是经过严格把控的,已经标注成voc和yolo两种格式,开箱即用
  • 针对SAR图像检测方法效率低等问题,提出了一种联合灰度和纹理特征的快速检测算法,通过利用全局检测算法与垂直方向纹理边缘的并行检测来提高检测速度,并给出了一个实例,验证了所提方法的有效性。
  • 最全综述 | 图像目标检测

    千次阅读 2019-09-27 12:11:01
    点击上方“AI算法与图像处理”,选择加"星标"或“置顶”重磅干货,第一时间送达本文转载自公众号:计算机视觉life前言图片分类任务我们已经熟悉了,就是算法对其中的对象进行...
  • 在本文实验中采用的是分类的方法,两者精度差距很小,但是分类方法在处理图像目标检测时在速度上更具优势。 在data文件夹下有以下内容:Imagenet_models和faster_rcnn_models预训练模型,cache文件——其中存放有在...
  • 利用CNN 对图像中的区域进行分类,以确定当前区域是北京还是哪个类别的目标。 困境:CNN需要对图像中所有可能的区域(不同位置、尺寸、长宽比)进行分类,计算量巨大! 区域建议: 找出所有潜在可能包含目标的区域...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 22,578
精华内容 9,031
关键字:

多图像联合检测目标