精华内容
下载资源
问答
  • 常用的动目标检测技术
    千次阅读
    2020-12-22 15:43:31

    转至:https://www.sohu.com/a/280751859_695278
    动目标指示(MTI)与动目标检测(MTD)
    2018-12-10 07:00
    多普勒雷达是指利用多普勒效应,测量目标相对于雷达的径向速度分量,或对具有特定径向速度的目标进行提取的雷达。如果雷达发射的是脉冲信号,则称为脉冲多普勒雷达。

    在由地物、海面、云雨、箔条等物体反射所形成的干扰背景(杂波)中,如果目标与杂波的径向速度不同,动目标指示(MTI)雷达或脉冲多普勒(PD)雷达就具有对其进行检测的能力。

    在典型民用领域中,为对空中交通实施管制,须具备在强地杂波和气象杂波中对未装载应答机的低空小型飞机进行检测的能力;

    在军用领域应用中,可包括对低空飞机和巡航导弹进行检测、也可应用于机载告警与控制系统(AWACS)、机载预警系统(AEW)以及机载拦截雷达等需要在极强的面杂波环境中下视工作的情况。

    点击图片可查看相关视频

    高重频模式

    机载预警系统所采用的多普勒处理技术有三类。第一类是高重频的脉冲多普勒技术,其重频至少为载机与目标临近飞行速度之和所对应多普勒频率的2倍,从而能够产生比较干净的无杂波区,只需采用窄带滤波器即可检测出运动目标。不过这种情况下距离是高度模糊的,通常需要解模糊。相对于低、中重频模式来说,高重频模式的优点在 于可在峰值功率不变的情况下增加所辐射的能量。

    利用距离-速度矩阵的每一单元格都包含距离维和速度维(或称为多普勒频率维)信息,前者对应雷达的距离分辨单元,后者则跟波束照射在目标上的驻留时间成反比。

    低重频模式

    第二类多普勒处理技术称作机载动目标指示技术,这类技术通过天线设计和信号处理消除了载机的运动效应。一旦消除这种影响,就可采用跟陆基或海基MTI雷达同样的信号处理方式了。由于希望距离是不模糊的,因此这种机载预警雷达经常釆用低重频工作,而对于低重频模式所导致的目标“盲速”问题,可采用重频参差加以解决。

    中重频模式

    第三类机载预警雷达采用的是中重频模式,此时距离和速度都是模糊的。高于低重频的 主要原因是为了提高对抗主瓣杂波和地面运动目标的能力;而低于高重频则是使雷达具备检 测副瓣杂波中速度较低(甚至为负值)的临近飞行目标的能力。

    PRF 优点 缺点

    •没有距离模糊

    •精确距离测量

    •距离分辨率高

    •通过距离选通进行旁瓣杂波抑制

    •处理简单

    •盲速的存在

    •高的多普勒模糊

    •下视模式时,检测性能低

    •高峰值功率或需要距离压缩


    •宽范围内目标多普勒的良好检测

    •有效抑制主瓣杂波及旁瓣杂波

    •精确测距

    •相对于高PRF操作,遮蔽降低

    •所有速度上存在旁瓣杂波

    •PRF和脉冲宽度的乘积大

    •复杂的距离多普勒解模糊处理

    •对旁瓣中大目标的检测性能低


    •高的平均功率

    •无模糊多普勒

    •没有盲速

    •主瓣杂波抑制的同时不会抑制目标

    •高模糊距离

    •目标遮蔽增加

    •测距复杂且精度降低

    •由于旁瓣杂波,对低多普勒目标的敏感度降低

    运动目标指示(MTI)

    由一个CPI内的连续M个脉冲回波经过相干解调后的基带数据,形成的一个二维数据矩阵。二维数据矩阵中的每一列都对应于对一个脉冲回波的连续釆样,即连续的距离单元。列中的每一个元素都是一个复数,代表一个距离单元的实部和虚部(I和Q)分量。因此,二维数据矩阵中的每一行代表对同一距离单元的一连 串脉冲测量。

    MTI处理器对慢时间数据序列执行线性滤波处理,以抑制数据中的杂波分量。下图描述了MTI的处理过程。MTI处理所需要的滤波器类型也可以由下图来理解。

    上述MTI处理中只能给出在感兴趣的距离单元中是否存在目标的判决信息,并没有提供任何关于目标多普勒频率的估计信息。

    动目标检测(MTD)

    MTD与MTI处理不同,它直接对每一个距离单元内的慢时间数据序列执行谱分析从而替代滤波处理。目标检测直接在距离-多普勒矩阵数据上进行。

    通过计算每个距离单元慢时间信号的一维频谱,从快时间-慢时间CPI矩阵中得到它。最常用的谱分析方法是计算数据矩阵中每一行慢时间数据序列的离散傅里叶变换(DFT),也可以采用其他谱分析方法。

    如果DFT输出中的某些峰值远远高出噪声电平,而且超过一个适当的检测阈值,则认为这些峰值是运动目标的响应,但不能保证DFT采样精确落在峰值位置。

    因此,DFT采样的幅度和频率估计仅仅是峰值实际幅度和频率的近似。可以通过内插等方式提高对真实多普勒频率的估计精度。当然,其他现代谱估计方法也可以用于脉冲多普勒处理。

    MTI和MTD级联

    考虑到杂波通常是最强的信号分量,它可以超出目标信号几十dB。如果在MTI滤波之前就计算慢时间信号的DFT,直流附近杂波响应的旁瓣可能会淹没附近速度的潜在目标响应,从而导致这些目标无法被检测到。

    通常,MTI滤波器通常放在前面,利用MTI滤波处理进行总的杂波抑制,再利用脉冲多普勒谱分析对脉冲多普勒谱进行详细检测(MTD)。

    欢迎使用Markdown编辑器

    你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

    新的改变

    我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

    1. 全新的界面设计 ,将会带来全新的写作体验;
    2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
    3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
    4. 全新的 KaTeX数学公式 语法;
    5. 增加了支持甘特图的mermaid语法1 功能;
    6. 增加了 多屏幕编辑 Markdown文章功能;
    7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
    8. 增加了 检查列表 功能。

    功能快捷键

    撤销:Ctrl/Command + Z
    重做:Ctrl/Command + Y
    加粗:Ctrl/Command + B
    斜体:Ctrl/Command + I
    标题:Ctrl/Command + Shift + H
    无序列表:Ctrl/Command + Shift + U
    有序列表:Ctrl/Command + Shift + O
    检查列表:Ctrl/Command + Shift + C
    插入代码:Ctrl/Command + Shift + K
    插入链接:Ctrl/Command + Shift + L
    插入图片:Ctrl/Command + Shift + G
    查找:Ctrl/Command + F
    替换:Ctrl/Command + G

    合理的创建标题,有助于目录的生成

    直接输入1次#,并按下space后,将生成1级标题。
    输入2次#,并按下space后,将生成2级标题。
    以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

    如何改变文本的样式

    强调文本 强调文本

    加粗文本 加粗文本

    标记文本

    删除文本

    引用文本

    H2O is是液体。

    210 运算结果是 1024.

    插入链接与图片

    链接: link.

    图片: Alt

    带尺寸的图片: Alt

    居中的图片: Alt

    居中并且带尺寸的图片: Alt

    当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

    如何插入一段漂亮的代码片

    博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

    // An highlighted block
    var foo = 'bar';
    

    生成一个适合你的列表

    • 项目
      • 项目
        • 项目
    1. 项目1
    2. 项目2
    3. 项目3
    • 计划任务
    • 完成任务

    创建一个表格

    一个简单的表格是这么创建的:

    项目Value
    电脑$1600
    手机$12
    导管$1

    设定内容居中、居左、居右

    使用:---------:居中
    使用:----------居左
    使用----------:居右

    第一列第二列第三列
    第一列文本居中第二列文本居右第三列文本居左

    SmartyPants

    SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

    TYPEASCIIHTML
    Single backticks'Isn't this fun?'‘Isn’t this fun?’
    Quotes"Isn't this fun?"“Isn’t this fun?”
    Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

    创建一个自定义列表

    Markdown
    Text-to- HTML conversion tool
    Authors
    John
    Luke

    如何创建一个注脚

    一个具有注脚的文本。2

    注释也是必不可少的

    Markdown将文本转换为 HTML

    KaTeX数学公式

    您可以使用渲染LaTeX数学表达式 KaTeX:

    Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

    Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

    你可以找到更多关于的信息 LaTeX 数学表达式here.

    新的甘特图功能,丰富你的文章

    Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
    • 关于 甘特图 语法,参考 这儿,

    UML 图表

    可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

    张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

    这将产生一个流程图。:

    链接
    长方形
    圆角长方形
    菱形
    • 关于 Mermaid 语法,参考 这儿,

    FLowchart流程图

    我们依旧会支持flowchart的流程图:

    Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
    • 关于 Flowchart流程图 语法,参考 这儿.

    导出与导入

    导出

    如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

    导入

    如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
    继续你的创作。


    1. mermaid语法说明 ↩︎

    2. 注脚的解释 ↩︎

    更多相关内容
  • MTI雷达,是动目标检测雷达。该类型雷达能够抑制杂波保留目标信号。对MTI雷达进行了仿真,并利用参差重频消除盲速影响,讨论了MTI雷达参差比取不同的值对盲速的影响。
  • 2021年小目标检测最新研究综述

    千次阅读 2021-08-16 01:02:16
    作者丨高新波、莫梦竟成、汪海涛、冷佳旭编辑丨极市平台导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行...

    作者丨高新波、莫梦竟成、汪海涛、冷佳旭 

    编辑丨极市平台

    导读

     

    与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系统且深入的分析与总结。

    文章链接:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001

    摘要

    小目标检测长期以来是计算机视觉中的一个难点和研究热点。在深度学习的驱动下,小目标 检测已取得了重大突破,并成功应用于国防安全、智能交通和工业自动化等领域。为了进一步促进小 目标检测的发展,本文对小目标检测算法进行了全面的总结,并对已有算法进行了归类、分析和比较。首先,对小目标进行了定义,并概述小目标检测所面临的挑战。然后,重点阐述从数据增强、多尺度学习、上下文学习、生成对抗学习以及无锚机制等方面来提升小目标检测性能的方法,并分析了这些方法的优缺点和关联性。之后,全面介绍小目标数据集,并在一些常用的公共数据集上对已有算法进行了 性能评估。最后本文对小目标检测技术的未来发展方向进行了展望。

    引言

    目标检测是计算机视觉领域中的一个重要研究方向,也是其他复杂视觉任务的基础。 作为图像理解和计算机视觉的基石,目标检测是解决分割、场景理解、目标跟踪、图像描述和事件检测等更高层次 视觉任务的基础。小目标检测长期以来是目标检测中的一个难点,其旨在精准检测出图像中可视化特征极少的小目标(32 像素×32 像素以下的目标)。在现实场景中,由于小目标是的大量存在,因此小目 标检测具有广泛的应用前景,在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要 作用。

    近年来,深度学习技术的快速发展为小目标检测注入了新鲜血液,使其成为研究热点。然而,相 对于常规尺寸的目标,小目标通常缺乏充足的外观信息,因此难以将它们与背景或相似的目标区分开来。在深度学习的驱动下,尽管目标检测算法已取得了重大突破,但是对于小目标的检测仍然是不尽人意的。在目标检测公共数据集 MS COCO[1]上,小目标和大目标在检测性能上存在显著差距,小目标的检测性能通常只有大目标的一半。由此可见,小目标检测仍然是充满挑战的。此外,真实场景是错 综复杂的,通常会存在光照剧烈变化、目标遮挡、目标稠密相连和目标尺度变化等问题,而这些因素对 小目标特征的影响是更加剧烈的,进一步加大了小目标检测的难度。

    事实上,小目标检测具有重要的 研究意义和应用价值。对于机场跑道,路面上会存在微小物体,如螺帽、螺钉、垫圈、钉子和保险丝等, 精准地检测出跑道的这些小异物将避免重大的航空事故和经济损失。对于自动驾驶,从汽车的高分辨 率场景照片中准确地检测出可能引起交通事故的小物体是非常有必要的。对于工业自动化,同样需要小目标检测来定位材料表面可见的小缺陷。对于卫星遥感图像,图像中的目标,例如车、船,可能只有 几十甚至几个像素。精确地检测出卫星遥感图像中的微小目标将有助于政府机构遏制毒品和人口贩 运,寻找非法渔船并执行禁止非法转运货物的规定。综上所述,小目标检测具有广泛的应用价值和重要的研究意义。

    与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系统且深入的分析与总结。 本文不仅对小目标 的定义进行了解释,也对小目标检测领域存在的挑战进行了详细地分析和总结,同时重点阐述了小目 标检测优化思路,包括数据增强、多尺度学习、上下文学习、生成对抗学习以及无锚机制以及其他优化 策略等。此外,本文还在常用的小目标数据集上分析对比了现有算法的检测性能。最后,对本文内容 进行了简要的总结,并讨论了小目标检测未来可能的研究方向和发展趋势。

    1 小目标定义及难点分析

    1.1 小目标定义

    不同场景对于小目标的定义各不相同,目前尚未形成统一的标准。现有的小目标定义方式主要分为以下两类,即基于相对尺度的定义与基于绝对尺度的定义。

    (1)基于相对尺度定义。 即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen等[11]提出一个针对小目标的数据集,并对小目标做了如下定义:同一类别中所有目标实例的相对面积,即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。文中对小目标的定义也给出了更具体的说法,如在640像素×480像素分辨率图像中,16像素×16像素到42像素×42像素的目标应考虑为小目标。除了Chen等对小目标的定义方式以外,较为常见的还有以下几种:(1)目标边界框的宽高与图像的宽高比例小于一定值,较为通用的比例值为0.1;(2)目标边界框面积与图像面积的比值开方小于一定值,较为通用的值为0.03;(3)根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。

    但是,这些基于相对尺度的定义存在诸多问题,如这种定义方式难以有效评估模型对不同尺度目标的检测性能。此外,这种定义方式易受到数据预处理与模型结构的影响。

    (2)基于绝对尺度定义。 则从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集[1],将小目标定义为分辨率小于32像素×32像素的目标。对于为什么是32像素×32像素,本文从两个方向进行了思考。一种思路来自于Torralba等[12]的研究,人类在图像上对于场景能有效识别需要的彩色图像像素大小为32像素×32像素,即小于32像素×32像素的目标人类都难以识别。另一种思路来源于深度学习中卷积神经网络本身的结构,以与MS COCO数据集第一部分同年发布的经典网络结构VGG‑Net[13]为例,从输入图像到全连接层的特征向量经过了5个最大池化层,这导致最终特征向量上的“一点”对应到输入图像上的像素大小为32像素×32像素。于是,从特征提取的难度不同这一角度考虑,可以将32像素×32像素作为区分小目标与常规目标的一个界定标准。除了MS COCO之外,还有其他基于绝对尺度的定义,如在航空图像数据集DOTA[14]与人脸检测数据集WIDER FACE[15]中都将像素值范围在[10, 50]之间的目标定义为小目标。在行人识别数据集CityPersons[16]中,针对行人这一具有特殊比例的目标,将小目标定义为了高度小于75像素的目标。基于航空图像的小行人数据集TinyPerson[17]则将小目标定义为像素值范围在[20, 32]之间的目标,而且近一步将像素值范围在[2, 20]之间的目标定义为微小目标。

    1.2 小目标检测面临的挑战

    前文中已简要阐述小目标的主流定义,通过这些定义可以发现小目标像素占比少,存在覆盖面积小、包含信息少等基本特点。这些特点在以往综述或论文中也多有提及,但是少有对小目标检测难点进行分析与总结。接下来本文将试图对造成小目标检测难度高的原因以及其面临的挑战进行分析与总结。

    (1) 可利用特征少

    无论是从基于绝对尺度还是基于相对尺度的定义,小目标相对于大/中尺度尺寸目标都存在分辨率低的问题。低分辨率的小目标可视化信息少,难以提取到具有鉴别力的特征,并且极易受到环境因素的干扰,进而导致了检测模型难以精准定位和识别小目标。

    (2) 定位精度要求高

    小目标由于在图像中覆盖面积小,因此其边界框的定位相对于大/中尺度尺寸目标具有更大的挑战性。在预测过程中,预测边界框框偏移一个像素点,对小目标的误差影响远高于大/中尺度目标。此外,现在基于锚框的检测器依旧占据绝大多数,在训练过程中,匹配小目标的锚框数量远低于大/中尺度目标,如图1所示,这进一步地导致了检测模型更侧重于大/中尺度目标的检测,难以检测小目标。图中IoU(Interp over union)为交并比。

    (3) 现有数据集中小目标占比少

    在目标检测领域中,现有数据集大多针对大/中尺度尺寸目标,较少关注小目标这一特别的类型。MS COCO中虽然小目标占比较高,达31.62%,但是每幅图像包含的实例过多,小目标分布并不均匀。同时,小目标不易标注,一方面来源于小目标在图像中不易被人类关注,很难标全;另一方面是小目标对于标注误差更为敏感。另外,现有的小目标数据集往往针对特定场景,例如文献[14]针对空中视野下的图像、文献[15]针对人脸、文献[16‑17]针对行人、文献[18]针对交通灯、文献[19]针对乐谱音符,使用这些数据集训练的网络不适用于通用的小目标检测。总的来说,大规模的通用小目标数据集尚处于缺乏状态,现有的算法没有足够的先验信息进行学习,导致了小目标检测性能不足。

    (4) 样本不均衡问题

    为了定位目标在图像中的位置,现有的方法大多是预先在图像的每个位置生成一系列的锚框。在训练的过程中,通过设定固定的阈值来判断锚框属于正样本还是负样本。这种方式导致了模型训练过程中不同尺寸目标的正样本不均衡问题。当人工设定的锚框与小目标的真实边界框差异较大时,小目标的训练正样本将远远小于大/中尺度目标的正样本,这将导致训练的模型更加关注大/中尺度目标的检测,而忽略小目标的检测。如何解决锚框机制导致的小目标和大/中尺度目标样本不均衡问题也是当前面临的一大挑战。

    (5) 小目标聚集问题

    相对于大/中尺度目标,小目标具有更大概率产生聚集现象。当小目标聚集出现时,聚集区域相邻的小目标通过多次降采样后,反应到深层特征图上将聚合成一个点,导致检测模型无法区分。当同类小目标密集出现时,预测的边界框还可能会因后处理的非极大值抑制操作将大量正确预测的边界框过滤,从而导致漏检情况。另外,聚集区域的小目标之间边界框距离过近,还将导致边界框难以回归,模型难以收敛。

    (6) 网络结构原因

    在目标检测领域,现有算法的设计往往更为关注大/中尺度目标的检测性能。针对小目标特性的优化设计并不多,加之小目标自身特性所带来的难度,导致现有算法在小目标检测上普遍表现不佳。虽然无锚框的检测器设计是一个新的发展趋势,但是现有网络依旧是基于锚框的检测器占据主流,而锚框这一设计恰恰对小目标极不友好。此外,在现有网络的训练过程中,小目标由于训练样本占比少,对于损失函数的贡献少,从而进一步减弱了网络对于小目标的学习能力。

    2 小目标检测研究思路

    2.1 数据增强

    数据增强是一种提升小目标检测性能的最简单和有效的方法,通过不同的数据增强策略可以扩充训练数据集的规模,丰富数据集的多样性,从而增强检测模型的鲁棒性和泛化能力。在相对早期的研究中,Yaeger等[20]通过使用扭曲变形、旋转和缩放等数据增强方法显著提升了手写体识别的精度。之后,数据增强中又衍生出了弹性变形[21]、随机裁剪[22]和平移[23]等策略。目前,这些数据增强策略已被广泛应用于目标检测中。

    近些年来,基于深度学习的卷积神经网络在处理计算机视觉任务中获得了巨大的成功。深度学习的成功很大程度上归功于数据集的规模和质量,大规模和高质量的数据能够大幅度提升模型的泛化能力。数据增强策略在目标检测领域有着广泛应用,例如Fast R‑CNN[24]、Cascade R‑CNN[25]中使用的水平翻转,YOLO[26]、YOLO9000[27]中使用的调整图像曝光和饱和度,还有常被使用的CutOut[28]、MixUp[29]、CutMix[30]等方法。最近,更是有诸如马赛克增强(YOLOv4[31])、保持增强[32]等创新策略提出,但是这些数据增强策略主要是针对常规目标检测。

    聚焦到小目标检测领域,小目标面临着分辨率低、可提取特征少、样本数量匮乏及分布不均匀等诸多挑战,数据增强的重要性愈发显著。近些年来,出现了一些适用于小目标的数据增强方法(表 1)。Yu等[17]在对数据的处理中,提出了尺度匹配策略,根据不同目标尺寸进行裁剪,缩小不同大小目标之间的差距,从而避免常规缩放操作中小目标信息易丢失的情形。Kisantal等[33]针对小目标覆盖的面积小、出现位置缺乏多样性、检测框与真值框之间的交并比远小于期望的阈值等问题,提出了一种复制增强的方法,通过在图像中多次复制粘贴小目标的方式来增加小目标的训练样本数,从而提升了小目标的检测性能。在Kisantal等的基础上,Chen等[34]在RRNet中提出了一种自适应重采样策略进行数据增强,这种策略基于预训练的语义分割网络对目标图像进行考虑上下文信息的复制,以解决简单复制过程中可能出现的背景不匹配和尺度不匹配问题,从而达到较好的数据增强效果。Chen等[35]则从小目标数量占比小、自身包含信息少等问题出发,在训练过程中对图像进行缩放与拼接,将数据集中的大尺寸目标转换为中等尺寸目标,中等尺寸目标转换为小尺寸目标,并在提高中/小尺寸目标的数量与质量的同时也兼顾考虑了计算成本。在针对小目标的特性设计对应的数据增强策略之外,Zoph等[36]超越了目标特性限制,提出了一种通过自适应学习方法例如强化学习选择最佳的数据增强策略,在小目标检测上获得了一定的性能提升。

    数据增强这一策略虽然在一定程度上解决了小目标信息量少、缺乏外貌特征和纹理等问题,有效提高了网络的泛化能力,在最终检测性能上获得了较好的效果,但同时带来了计算成本的增加。而且在实际应用中,往往需要针对目标特性做出优化,设计不当的数据增强策略可能会引入新的噪声,损害特征提取的性能,这也给算法的设计带来了挑战。

    2.2 多尺度学习

    小目标与常规目标相比可利用的像素较少,难以提取到较好的特征,而且随着网络层数的增加,小目标的特征信息与位置信息也逐渐丢失,难以被网络检测。这些特性导致小目标同时需要深层语义信息与浅层表征信息,而多尺度学习将这两种相结合,是一种提升小目标检测性能的有效策略。

    早期的多尺度检测有两个思路。一种是使用不同大小的卷积核通过不同的感受野大小来获取不同尺度的信息,但这种方法计算成本很高,而且感受野的尺度范围有限,Simonyan和Zisserman[13]提出使用多个小卷积核代替大卷积核具备巨大优势后,使用不同大小卷积核的方法逐渐被弃用。之后,Yu等[37]提出的空洞卷积和Dai等[38]提出的可变卷积又为这种通过不同感受野大小获取不同尺度信息的方法开拓了新的思路。另一种来自于图像处理领域的思路——图像金字塔[39],通过输入不同尺度的图像,对不同尺度大小的目标进行检测,这种方法在早期的目标检测中有所应用[40‑41](见图2(a))。但是,基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有极高的要求。近些年来,图像金字塔在实际研究应用中较少被使用,仅有文献[42‑43]等方法针对数据集目标尺度差异过大等问题而使用。

    目标检测中的经典网络如Fast R‑CNN[24]、Faster R‑CNN[44]、SPPNet[45]和R‑FCN[46]等大多只是利用了深度神经网络的最后层来进行预测。然而,由于空间和细节特征信息的丢失,难以在深层特征图中检测小目标。在深度神经网络中,浅层的感受野更小,语义信息弱,上下文信息缺乏,但是可以获得更多空间和细节特征信息。从这一思路出发,Liu等[47]提出一种多尺度目标检测算法SSD(Single shot multibox detector),利用较浅层的特征图来检测较小的目标,而利用较深层的特征图来检测较大的目标,如图2(b)所示。Cai等[48]针对小目标信息少,难以匹配常规网络的问题,提出统一多尺度深度卷积神经网络,通过使用反卷积层来提高特征图的分辨率,在减少内存和计算成本的同时显著提升了小目标的检测性能。

    针对小目标易受环境干扰问题,Bell等[49]为提出了ION(Inside‑outside network)目标检测方法,通过从不同尺度特征图中裁剪出同一感兴趣区域的特征,然后综合这些多尺特征来预测,以达到提升检测性能的目的。与ION的思想相似,Kong等[50]提出了一种有效的多尺度融合网络,即HyperNet,通过综合浅层的高分辨率特征和深层的语义特征以及中间层特征的信息显著提高了召回率,进而提高了小目标检测的性能(见图2(c))。这些方法能有效利用不同尺度的信息,是提升小目标特征表达的一种有效手段。但是,不同尺度之间存在大量重复计算,对于内存和计算成本的开销较大。

    为节省计算资源并获得更好的特征融合效果,Lin等[51]结合单一特征映射、金字塔特征层次和综合特征的优点,提出了特征金字塔FPN(Feature Pyramid network)。FPN是目前最流行的多尺度网络,它引入了一种自底向上、自顶向下的网络结构,通过将相邻层的特征融合以达到特征增强的目的(见图2(d))。在FPN的基础上,Liang等[52]提出了一种深度特征金字塔网络,使用具有横向连接的特征金字塔结构加强小目标的语义特征,并辅以特别设计的锚框和损失函数训练网络。为了提高小目标的检测速度,Cao等[53]提出一种多层次特征融合算法,即特征融合SSD,在SSD的基础上引入上下文信息,较好地平衡了小目标检测的速度与精度。但是基于SSD的特征金字塔方法需要从网络的不同层中抽取不同尺度的特征图进行预测,难以充分融合不同尺度的特征。针对这一问题,Li和Zhou[54]提出一种特征融合单次多箱探测器,使用一个轻量级的特征融合模块,联系并融合各层特征到一个较大的尺度,然后在得到的特征图上构造特征金字塔用于检测,在牺牲较少速度的情形下提高了对小目标的检测性能。针对机场视频监控中的小目标识别准确率较低的问题,韩松臣等[55]提出了一种结合多尺度特征融合与在线难例挖掘的机场路面小目标检测方法,该方法采用ResNet‑101作为特征提取网络,并在该网络基础上建立了一个带有上采样的“自顶向下”的特征融合模块,以生成语义信息更加丰富的高分辨率特征图。

    最近,多尺度特征融合这一方法又有了新的拓展,如Nayan等[56]针对小目标经过多层网络特征信息易丢失这一问题,提出了一种新的实时检测算法,该算法使用上采样和跳跃连接在训练过程中提取不同网络深度的多尺度特征,显著提高了小目标检测的检测精度与速度。Liu等[57]为了降低高分辨率图像的计算成本,提出了一种高分辨率检测网络,通过使用浅层网络处理高分辨率图像和深层网络处理低分辨率图像,在保留小目标尽可能多的位置信息同时提取了更多的语义信息,在降低计算成本的情形下提升了小目标的检测性能。Deng等[58]发现虽然多尺度融合可以有效提升小目标检测性能,但是不同尺度的特征耦合仍然会影响性能,于是提出了一种扩展特征金字塔网络,使用额外的高分辨率金字塔级专门用于小目标检测。

    总体来说,多尺度特征融合同时考虑了浅层的表征信息和深层的语义信息,有利于小目标的特征提取,能够有效地提升小目标检测性能。然而,现有多尺度学习方法在提高检测性能的同时也增加了额外的计算量,并且在特征融合过程中难以避免干扰噪声的影响,这些问题导致了基于多尺度学习的小目标检测性能难以得到进一步提升。

    2.3 上下文学习

    在真实世界中,“目标与场景”和“目标与目标”之间通常存在一种共存关系,通过利用这种关系将有助于提升小目标的检测性能。在深度学习之前,已有研究[59]证明通过对上下文进行适当的建模可以提升目标检测性能,尤其是对于小目标这种外观特征不明显的目标。随着深度神经网络的广泛应用,一些研究也试图将目标周围的上下文集成到深度神经网络中,并取得了一定的成效。以下将从基于隐式上下文特征学习和基于显式上下文推理的目标检测两个方面对国内外研究现状及发展动态进行简要综述。

    (1)基于隐式上下文特征学习的目标检测。 隐式上下文特征是指目标区域周围的背景特征或者全局的场景特征。事实上,卷积神经网络中的卷积操作在一定程度上已经考虑了目标区域周围的隐式上下文特征。为了利用目标周围的上下文特征,Li等[60]提出一种基于多尺度上下文特征增强的目标检测方法,该方法首先在图像中生成一系列的目标候选区域,然后在目标周围生成不同尺度的上下文窗口,最后利用这些窗口中的特征来增强目标的特征表示(见图3(a))。随后,Zeng等[61]提出一种门控双向卷积神经网络,该网络同样在目标候选区域的基础上生成包含不同尺度上下文的支撑区域,不同之处在于该网络让不同尺度和分辨率的信息在生成的支撑区域之间相互传递,从而综合学习到最优的特征。为了更好地检测复杂环境下的微小人脸,Tang等[62]提出一种基于上下文的单阶段人脸检测方法,该方法设计了一种新的上下文锚框,在提取人脸特征的同时考虑了其周围的上下文信息,例如头部信息和身体信息。郑晨斌等[63]提出一种强化上下文模型网络,该网络利用双空洞卷积结构来节省参数量的同时,通过扩大有效感受野来强化浅层上下文信息,并在较少破坏原始目标检测网络的基础上灵活作用于网络中浅预测层。然而,这些方法大多依赖于上下文窗口的设计或受限于感受野的大小,可能会导致重要上下文信息的丢失。

    为了更加充分地利用上下文信息,一些方法尝试将全局的上下文信息融入到目标检测模型中(见 图3(b))。对于早期的目标检测算法,一种常用的集成全局上下文方法是通过构成场景元素的统计汇总,例如Gist[64]。Torralba等[65]提出通过计算全局场景的低级特征和目标的特征描述符的统计相关性来对视觉上下文建模。随后,Felzenszwalb等[66]提出一种基于混合多尺度可变形部件模型的目标检测方法。该方法通过引入上下文来对检测结果进行二次评分,从而进一步提升检测结果的可靠性。对于目前的基于深度学习的目标检测算法,主要通过较大的感受野、卷积特征的全局池化或把全局上下文看作一种序列信息3种方式来感知全局上下文。Bell等[49]提出基于循环神经网络的上下文传递方法,该方法利用循环神经网络从4个方向对整个图像中的上下文信息进行编码,并将得到的4个特征图进行串联,从而实现对全局上下文的感知。然而,该方法使模型变得复杂,并且模型的训练严重依赖于初始化参数的设置。Ouyang等[67]通过学习图像的分类得分,并将该得分作为补充的上下文特征来提升目标检测性能。为了提升候选区域的特征表示,Chen等[68]提出一种上下文微调网络,该网络首先通过计算相似度找到与目标区域相关的上下文区域,然后利用这些上下文区域的特征来增强目标区域特征。随后,Barnea等[69]将上下文的利用视为一个优化问题,讨论了上下文或其他类型的附加信息可以将检测分数提高到什么程度,并表明简单的共现性关系是最有效的上下文信息。此外,Chen等[70]提出一种层次上下文嵌入框架,该框架可以作为一个即插即用的组件,通过挖掘上下文线索来增强候选区域的特征表达,从而提升最终的检测性能。最近,张瑞琰等[71]提出了面向光学遥感目标的全局上下文检测模型,该模型通过全局上下文特征与目标中心点局部特征相结合的方式生成高分辨率热点图,并利用全局特征实现目标的预分类。此外,一些方法通过语义分割来利用全局上下文信息。He等[72]提出一种统一的实例分割框架,利用像素级的监督来优化检测器,并通过多任务的方式联合优化目标检测和实例分割模型。尽管通过语义分割可以显著提高检测性能,但是像素级的标注是非常昂贵的。鉴于此,Zhao等[73]提出一种生成伪分割标签的方法,通过利用伪分割标签来于优化检测器,并取得了不错的效果。进一步地,Zhang等[74]提出一种无监督的分割方法,在无像素级的标注下通过联合优化目标检测和分割来增强用于目标检测的特征图。目前,基于全局上下文的方法在目标检测上已经取得了较大的进展,但如何从全局场景中找到有利于提升小目标检测性能的上下文信息仍然是当前的研究难点。

    (2)基于显式上下文推理的目标检测。 显示上下文推理是指利用场景中明确的上下文信息来辅助推断目标的位置或类别,例如利用场景中天空区域与目标的上下文关系来推断目标的类别。上下文关系通常指场景中目标与场景或者目标与目标之间的约束和依赖关系(见图3(c))。为了利用上下文关系,Chen等[75]提出一种自适应上下文建模和迭代提升的方法,通过将一个任务的输出作为另一个任务的上下文来提升目标分类和检测性能。此后,Gupta等[76]提出一种基于空间上下文的目标检测方法。该方法能够准确地捕捉到上下文和感兴趣目标之间的空间关系,并且有效地利用了上下文区域的外观特征。进一步地,Liu等[77]提出一种结构推理网络,通过充分考虑场景上下文和目标之间的关系来提升目标的检测性能。为了利用先验知识,Xu等[78]在Faster R‑CNN[44]的基础上提出了一种Reasoning‑RCNN,通过构建知识图谱来编码上下文关系,并利用先验的上下文关系来影响目标检测。Chen等[79]提出了一种空间记忆网络,空间记忆实质上是将目标实例重新组合成一个伪图像表示,并将伪图像表示输入到卷积神经网络中进行目标关系推理,从而形成一种顺序推理体系结构。在注意力机制的基础上,Hu等[80]提出一种轻量级目标关系网络,通过引入不同物体之间的外观和几何结构关系来做约束,实现物体之间的关系建模。该网络无需额外的监督,并且易于嵌入到现有的网络中,可以有效地过滤冗余框,从而提升目标的检测性能。

    近年来,基于上下文学习的方法得到了进一步发展。Lim等[81]提出一种利用上下文连接多尺度特征的方法,该方法中使用网络不同深度层级中的附加特征作为上下文,辅以注意力机制聚焦于图像中的目标,充分利用了目标的上下文信息,进而提升了实际场景中的小目标检测精度。针对室内小尺度人群检测面临的目标特征与背景特征重叠且边界难以区分的问题,Shen等[82]提出了一种室内人群检测网络框架,使用一种特征聚合模块(Feature aggregation module, FAM)通过融合和分解的操作来聚合上下文特征信息,为小尺度人群检测提供更多细节信息,进而显著提升了对于室内小尺度人群的检测性能。Fu等[83]提出了一种新颖的上下文推理方法,该方法对目标之间的固有语义和空间布局关系进行建模和推断,在提取小目标语义特征的同时尽可能保留其空间信息,有效解决了小目标的误检与漏检问题。为了提升目标的分类结果,Pato等[84]提出一种基于上下文的检测结果重打分方法,该方法通过循环神经网络和自注意力机制来传递候选区域之间的信息并生成上下文表示,然后利用得到的上下文来对检测结果进行二次评估。

    基于上下文学习的方法充分利用了图像中与目标相关的信息,能够有效提升小目标检测的性能。但是,已有方法没有考虑到场景中的上下文信息可能匮乏的问题,同时没有针对性地利用场景中易于检测的结果来辅助小目标的检测。鉴于此,未来的研究方向可以从以下两个角度出发考虑:(1)构建基于类别语义池的上下文记忆模型,通过利用历史记忆的上下文来缓解当前图像中上下文信息匮乏的问题;(2)基于图推理的小目标检测,通过图模型和目标检测模型的结合来针对性地提升小目标的检测性能。

    2.4 生成对抗学习

    生成对抗学习的方法旨在通过将低分辨率小目标的特征映射成与高分辨率目标等价的特征,从而达到与尺寸较大目标同等的检测性能。前文所提到的数据增强、特征融合和上下文学习等方法虽然可以有效地提升小目标检测性能,但是这些方法带来的性能增益往往受限于计算成本。针对小目标分辨率低问题,Haris等[85]提出一种端到端的联合训练超分辨率和检测模型的方法,该方法一定程度上提升了低分辨率目标的检测性能。但是,这种方法对于训练数据集要求较高,并且对小目标检测性能的提升不足。

    目前,一种有效的方法是通过结合生成对抗网络(Generative adversarial network, GAN)[86]来提高小目标的分辨率,缩小小目标与大/中尺度目标之间的特征差异,增强小目标的特征表达,进而提高小目标检测的性能。在Radford等[87]提出了DCGAN(Deep convolutional GAN)后,计算视觉的诸多任务开始利用生成对抗模型来解决具体任务中面临的问题。针对训练样本不足的问题,Sixt等[88]提出了RenderGAN,该网络通过对抗学习来生成更多的图像,从而达到数据增强的目的。为了增强检测模型的鲁棒性,Wang等[89]通过自动生成包含遮挡和变形特征的样本,以此提高对困难目标的检测性能。随后,Li等[90]提出了一种专门针对小目标检测的感知GAN方法,该方法通过生成器和鉴别器相互对抗的方式来学习小目标的高分辨率特征表示。在感知GAN中,生成器将小目标表征转换为与真实大目标足够相似的超分辨表征。同时,判别器与生成器对抗以识别生成的表征,并对生成器施加条件要求。该方法通过生成器和鉴别器相互对抗的方式来学习小目标的高分辨率特征表示。这项工作将小目标的表征提升为“超分辨”表征,实现了与大目标相似的特性,获得了更好的小目标检测性能。

    近年来,基于GAN对小目标进行超分辨率重建的研究有所发展,Bai等[91]提出了一种针对小目标的多任务生成对抗网络(Multi‑task generative adversarial network, MTGAN)。在MTGAN中,生成器是一个超分辨率网络,可以将小模糊图像上采样到精细图像中,并恢复详细信息以便更准确地检测。判别器是多任务网络,区分真实图像与超分辨率图像并输出类别得分和边界框回归偏移量。此外,为了使生成器恢复更多细节以便于检测,判别器中的分类和回归损失在训练期间反向传播到生成器中。MTGAN由于能够从模糊的小目标中恢复清晰的超分辨目标,因此大幅度提升了小目标的检测性能。进一步地,针对现有的用于小目标检测的超分辨率模型存在缺乏直接的监督问题,Noh等[92]提出一种新的特征级别的超分辨率方法,该方法通过空洞卷积的方式使生成的高分辨率目标特征与特征提取器生成的低分辨率特征保持相同的感受野大小,从而避免了因感受野不匹配而生成错误超分特征的问题。此外,Deng等[58]设计了一种扩展特征金字塔网络,该网络通过设计的特征纹理模块生成超高分辨率的金字塔层,从而丰富了小目标的特征信息。

    基于生成对抗模型的目标检测算法通过增强小目标的特征信息,可以显著提升检测性能。同时,利用生成对抗模型来超分小目标这一步骤无需任何特别的结构设计,能够轻易地将已有的生成对抗模型和检测模型相结合。但是,目前依旧面临两个无法避免的问题:(1)生成对抗网络难以训练,不易在生成器和鉴别器之间取得好的平衡;(2)生成器在训练过程中产生样本的多样性有限,训练到一定程度后对于性能的提升有限。

    2.5 无锚机制

    锚框机制在目标检测中扮演着重要的角色。许多先进的目标检测方法都是基于锚框机制而设计的,但是锚框这一设计对于小目标的检测极不友好。现有的锚框设计难以获得平衡小目标召回率与计算成本之间的矛盾,而且这种方式导致了小目标的正样本与大目标的正样本极度不均衡,使得模型更加关注于大目标的检测性能,从而忽视了小目标的检测。极端情况下,设计的锚框如果远远大于小目标,那么小目标将会出现无正样本的情况。小目标正样本的缺失,将使得算法只能学习到适用于较大目标的检测模型。此外,锚框的使用引入了大量的超参,比如锚框的数量、宽高比和大小等,使得网络难以训练,不易提升小目标的检测性能。近些年无锚机制的方法成为了研究热点,并在小目标检测上取得了较好效果。

    一种摆脱锚框机制的思路是将目标检测任务转换为关键点的估计,即基于关键点的目标检测方法。基于关键点的目标检测方法主要包含两个大类:基于角点的检测和基于中心的检测。基于角点的检测器通过对从卷积特征图中学习到的角点分组来预测目标边界框。DeNet[93]将目标检测定义为估计目标4个角点的概率分布,包括左上角、右上角、左下角和右下角(见图4(a))。首先利用标注数据来训练卷积神经网络,然后利用该网络来预测角点分布。之后,利用角点分布和朴素贝叶斯分类器来确定每个角点对应的候选区域是否包含目标。在DeNet之后,Wang等[94]提出了一种新的使用角点和中心点之间的连接来表示目标的方法,命名为PLN(Point linking network)。PLN首先回归与DeNet相似的4个角点和目标的中心点,同时通过全卷积网络预测关键点两两之间是否相连,然后将角点及其相连的中心点组合起来生成目标边界框。PLN对于稠密目标和具有极端宽高比率目标表现良好。但是,当角点周围没有目标像素时,PLN由于感受野的限制将很难检测到角点。继PLN之后,Law等[95]提出了一种新的基于角点的检测算法,命名为CornerNet。CornerNet将目标检测问题转换为角点检测问题,首先预测所有目标的左上和右下的角点,然后将这些角点进行两两匹配,最后利用配对的角点生成目标的边界框。CornetNet的改进版本——CornerNet‑Lite[96],从减少处理的像素数量和减少在每个像素上进行的计算数量两个角度出发进行改进,有效解决了目标检测中的两个关键用例:在不牺牲精度的情况下提高效率以及实时效率的准确性。与基于锚框的检测器相比,CornerNet系列具有更简洁的检测框架,在提高检测效率的同时获得了更高的检测精度。但是,该系列仍然会因为错误的角点匹配预测出大量不正确的目标边界框。

    为了进一步提高目标检测性能,Duan等[97]提出了一种基于中心预测的目标检测框架,称为CenterNet(见图4(b))。CenterNet首先预左上角和右下角的角点以及中心关键点,然后通过角点匹配确定边界框,最后利用预测的中心点消除角点不匹配引起的不正确的边界框。与CenterNet类似,Zhou等[98]通过对极值点和中心点进行匹配,提出了一种自下而上的目标检测网络,称为ExtremeNet。ExtremeNet首先使用一个标准的关键点估计网络来预测最上面、最下面、最左边、最右边的4个极值点和中心点,然后在5个点几何对齐的情况下对它们进行分组以生成边界框。但是ExtremeNet和CornerNet等基于关键点的检测网络都需要经过一个关键点分组阶段,这降低了算法整体的速度。针对这一问题,Zhou等[99]将目标建模为其一个单点,即边界框中心点,无需对构建点进行分组或其他后处理操作。然后在探测器使用关键点估计来查找中心点,并回归到所有其他对象属性,如大小、位置等。这一方法很好地平衡了检测的精度与速度。

    近年来,基于关键点的目标检测方法又有了新的扩展。Yang等[100]提出了一种名为代表点(RepPoints)的检测方法,提供了更细粒度的表示方式,使得目标可以被更精细地界定。同时,这种方法能够自动学习目标的空间信息和局部语义特征,一定程度上提升了小目标检测的精度(见图4(c))。更进一步地,Kong等[101]受到人眼的中央凹(视网膜中央区域,集中了绝大多数的视锥细胞,负责视力的高清成像)启发,提出了一种直接预测目标存在的可能性和边界框坐标的方法,该方法首先预测目标存在的可能性,并生成类别敏感语义图,然后为每一个可能包含目标的位置生成未知类别的边界框。由于摆脱了锚框的限制,FoveaBox对于小目标等具有任意横纵比的目标具备良好的鲁棒性和泛化能力,并在检测精度上也得到了较大提升。与FoveaBox相似,Tian等[102]使用语义分割的思想来解决目标检测问题,提出了一种基于全卷积的单级目标检测器FCOS(Fully convolutional one‑stage),避免了基于锚框机制的方法中超参过多、难以训练的问题(见图4(d))。此外,实验表明将两阶段检测器的第一阶段任务换成FCOS来实现,也能有效提升检测性能。而后,Zhu等[103]将无锚机制用于改进特征金字塔中的特征分配问题,根据目标语义信息而不是锚框来为目标选择相应特征,同时提高了小目标检测的精度与速度。Zhang等[104]则从基于锚框机制与无锚机制的本质区别出发,即训练过程中对于正负样本的定义不同,提出了一种自适应训练样本选择策略,根据对象的统计特征自动选择正反样本。针对复杂的场景下小型船舶难以检测的问题,Fu等[105]提出了一种新的检测方法——特征平衡与细化网络,采用直接学习编码边界框的一般无锚策略,消除锚框对于检测性能的负面影响,并使用基于语义信息的注意力机制平衡不同层次的多个特征,达到了最先进的性能。为了更有效地处理无锚框架下的多尺度检测,Yang等[106]提出了一种基于特殊注意力机制的特征金字塔网络,该网络能够根据不同大小目标的特征生成特征金字塔,进而更好地处理多尺度目标检测问题,显著提升了小目标的检测性能。

    2.6 其他优化策略

    在小目标检测这一领域,除了前文所总结的几个大类外,还有诸多优秀的方法。针对小目标训练样本少的问题,Kisantal等[33]提出了一种过采样策略,通过增加小目标对于损失函数的贡献,以此提升小目标检测的性能。除了增加小目标样本权重这一思路之外,另一种思路则是通过增加专用于小目标的锚框数量来提高检测性能。Zhang等[107]提出了一种密集锚框策略,通过在一个感受野中心设计多个锚框来提升小目标的召回率。与密集锚框策略相近,Zhang等[108]设计了一种基于有效感受野和等比例区间界定锚框尺度的方法,并提出一种尺度补偿锚框匹配策略来提高小人脸目标的召回率。增加锚框数量对于提升小目标检测精度十分有效,同时也额外增加了巨大的计算成本。Eggert等[109]从锚框尺度的优化这一角度入手,通过推导小目标尺寸之间的联系,为小目标选择合适的锚框尺度,在商标检测上获得了较好的检测效果。之后,Wang等[110]提出了一种基于语义特征的引导锚定策略,通过同时预测目标中心可能存在的位置及目标的的尺度和纵横比,提高了小目标检测的性能。此外,这种策略可以集成到任何基于锚框的方法中。但是,这些改进没有实质性地平衡检测精度与计算成本之间的矛盾。

    近些年来,随着计算资源的增加,越来越多的网络使用级联思想来平衡目标漏检率与误检率。级联这一思想来源已久[111],并在目标检测领域得到了广泛的应用。它采用了从粗到细的检测理念:用简单的计算过滤掉大多数简单的背景窗口,然后用复杂的窗口来处理那些更困难的窗口。随着深度学习时代的到来,Cai等[25]提出了经典网络Cascade R‑CNN,通过级联几个基于不同IoU阈值的检测网络达到不断优化预测结果的目的。之后,Li等[112]在Cascade R‑CNN的基础上进行了扩展,进一步提升了小目标检测性能。受到级联这一思想的启发,Liu等[113]提出了一种渐近定位策略,通过不断增加IoU阈值来提升行人检测的检测精度。另外,文献[114‑116]展现了级联网络在困难目标检测上的应用,也一定程度上提升了小目标的检测性能。

    另外一种思路则是分阶段检测,通过不同层级之间的配合平衡漏检与误检之间的矛盾。Chen等[117]提出一种双重探测器,其中第一尺度探测器最大限度地检测小目标,第二尺度探测器则检测第一尺度探测器无法识别的物体。进一步地,Drenkow等[118]设计了一种更加高效的目标检测方法,该方法首先在低分辨率下检查整个场景,然后使用前一阶段生成的显著性地图指导后续高分辨率下的目标检测。这种方式很好地权衡了检测精度和检测速度。此外,文献[119‑121]针对空中视野图像中的困难目标识别进行了前后景的分割,区分出重要区域与非重要区域,在提高检测性能的同时也减少了计算成本。

    优化损失函数也是一种提升小目标检测性能的有效方法。Redmon等[26]发现,在网络的训练过程中,小目标更容易受到随机误差的影响。随后,他们针对这一问题进行了改进[27],提出一种依据目标尺寸设定不同权重的损失函数,实现了小目标检测性能的提升。Lin等[122]则针对类别不均衡问题,在RetinaNet中提出了焦距损失,有效解决了训练过程中存在的前景‑背景类不平衡问题。进一步地,Zhang等[123]将级联思想与焦距损失相结合,提出了Cascade RetinaNet,进一步提高了小目标检测的精度。针对小目标容易出现的前景与背景不均衡问题,Deng等[58]则提出了一种考虑前景‑背景之间平衡的损失函数,通过全局重建损失和正样本块损失提高前景与背景的特征质量,进而提升了小目标检测的性能。

    为了权衡考虑小目标的检测精度和速度,Sun等[124]提出了一种多接受域和小目标聚焦弱监督分割网络,通过使用多个接收域块来关注目标及其相邻背景,并依据不同空间位置设置权重,以达到增强特征可辨识性的目的。此外,Yoo等[125]将多目标检测任务重新表述为边界框的密度估计问题,提出了一种混合密度目标检测器,通过问题的转换避免了真值框与预测框匹配以及启发式锚框设计等繁琐过程,也一定程度上解决了前景与背景不平衡的问题。

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

    下载2

    在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

    下载3

    在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

    重磅!计算机视觉工坊-学习交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 遥感影像中常用目标检测数据集

    千次阅读 多人点赞 2021-01-24 23:43:01
    遥感影像中常用目标检测数据集1.DOTA2.UCAS-AOD3. NWPU VHR-104. RSOD-Dataset5. TGRS-HRRSD-Dataset6. TAS7. DIOR8. xView9. HRSC201610.VEDAI11.Cars Overhead With Context(COWC)12.ITCVD13.OpenSARShip14.DLR ...


    搜集整理了遥感中常用的目标检测数据集,方便自己也方便大家用。

    1.DOTA

    A Large-scale Dataset for Object Detection in Aerial Images。2806张遥感图像(大小约4000*4000),188,282个instances,分为15个类别:飞机、船只、储蓄罐、棒球场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池。每个实例都由一个四边形边界框标注,顶点按顺时针顺序排列。。

    更新:DOTA-v1.5在16个类别中包含40万个带注释的对象实例,这是DOTA-v1.0的更新版本。 它们都使用相同的航拍图像,但是DOTA-v1.5修改并更新了对象的注释,其中在DOTA-v1.0中缺少了许多大约10个像素以下的小对象实例,并对其进行了附加注释。 DOTA-v1.5的类别也得到了扩展。 具体地,增加了集装箱起重机的类别。

    链接:https://captain-whu.github.io/DOAI2019/dataset.html

    网盘:https://pan.baidu.com/s/1CeKtwysA01-wJpBl8RYNQg

    提取码:RSAI
    Alt

    2.UCAS-AOD

    Dataset of Object Detection in Aerial Images,国科大模式识别实验室标注的,只包含两类目标:汽车,飞机,以及背景负样本。

    链接:http://www.ucassdl.cn/resource.asp

    链接:https://pan.baidu.com/s/1zVk-sZYOd0YWdhezUFdtdg

    提取码:RSAI
    Alt
    Alt

    3. NWPU VHR-10

    西北工业大学标注的航天遥感目标检测数据集,共有800张图像,其中包含目标的650张,背景图像150张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆10个类别。开放下载,大概73M。

    链接:http://jiong.tea.ac.cn/people/JunweiHan/NWPUVHR10dataset.html(失效)

    链接:https://pan.baidu.com/s/1_tkTVEIW5zfR1jZ33P_fXg

    提取码:RSAI.DOTA

    4. RSOD-Dataset

    武汉大学团队标注,包含飞机、操场、立交桥、 油桶四类目标,数目分别为:

    飞机:4993 aircrafts in 446 images.

    操场:191 playgrounds in 189 images.

    立交桥:180 overpass in 176 overpass.

    油桶:1586 oiltanks in 165 images.

    链接:https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-

    链接:https://pan.baidu.com/s/1kTUwBK2LCF2bKxieNuLQPw

    提取码:RSAI

    5. TGRS-HRRSD-Dataset

    HRRSD是中国科学院西安光学精密机械研究所光学影像分析与学习中心制作用于研究高分辨率遥感图像目标检测的数据集。
    链接:https://github.com/CrazyStoneonRoad/TGRS-HRRSD-Dataset

    链接:https://pan.baidu.com/s/11OhYOZ2SrBc_lKY5LR_8gw

    提取码:RSAI

    Alt

    6. TAS

    Alt
    链接:http://ai.stanford.edu/~gaheitz/Research/TAS/

    链接:https://pan.baidu.com/s/13l-gL-Gm9wNNIDG6mAA_SA

    提取码:RSAI

    7. DIOR

    西工大韩军伟课题组提出了一种用于光学遥感图像中目标检测的大规模基准数据集“DIOR”,由23463幅图像和190288个目标实例组成,并对近年来基于深度学习的目标检测方法进行了综述。目标类别如下图。大小800 * 800,分辨率0.5m到30m。包括不同季节、不同天气。位置增强。来源Google Earth。

    文章为:Ke Li, Gang Wan, Gong Cheng, Liqiu Meng, Junwei Han. Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark.

    链接:https://pan.baidu.com/s/1Sxo5rWq7F3sq49mjDqZhtg

    提取码:RSAI
    Alt
    Alt

    8. xView

    美国国防部的国防创新部门实验室(DIUx)、DigitalGlobe还有美国国家地理空间情报局的研究人员发布了xView。这是一个数据集和其相关的竞赛,用于评估人工智能方法对高空卫星图像进行分类的能力。xView包含60个类别的100万个不同对象,分布在1,400平方公里的卫星图像上,最大地面样本分辨率为0.3米。该数据集旨在测试图像识别的各个领域,包括:学习效率,细粒度类别检测和多尺度识别等。

    7个大类60个小类(None表示无大类),共约1.000,000个目标

    • Fixed-Wing Aircraft

      • small aircraft

      • cargo plane

      • Passenger Vehicle

      • small car

      • bus

    • Building

      • hut/tent

      • shed

      • aircraft hangar

      • damaged building

      • facility

    • Truck

      • pickup truck

      • utility truck

      • cargo truck

      • truck w/box

      • truck tractor trailer

      • truck w/flatbed

      • truck w/liquid

    • Railway Vehicle

      • passenger car

      • cargo car

      • flat car

      • tank car

      • locomotive

    • Maritime Vessel

      • motoboat

      • sailboat

      • tugboat

      • barge

      • fishing vessel

      • ferry

      • yacht

      • container ship

      • oil tanker

    • Engineering Vessel

      • tower crane

      • container crane

      • reach stacker

      • straddle carrier

      • mobile crane

      • dump truck

      • haul truck

      • scraper/tractor

      • front loader

      • excavator

      • cement mixer

      • ground grader

      • crane truck

    • None

      • helipad

      • pylon

      • shipping container

      • shipping container lot

      • storage trank

      • vehicle lot

      • construction site

      • tower structure

      • helicopter
        数据集下载链接:https://challenge.xviewdataset.org/download-links

    论文链接:https://arxiv.org/pdf/1802.07856.pdf

    链接:https://pan.baidu.com/s/10zQb06R8KoBLswmfS2jTgw

    提取码:RSAI
    Alt

    9. HRSC2016

    遥感舰船公开数据集所有图像均来自六个著名的港口。分辨率从2米到0.4米不等,图像大小从300300到1500900不等,大部分比1000*600大。含有3个级别任务(分别为单类class、4类category和19类type舰船检测识别)训练,验证和测试集分别包含436个图像(包括1207个样本),181个图像(包括541个样本)和444个图像(包括1228个样本)。

    下载地址:https://sites.google.com/site/hrsc2016/
    http://www.escience.cn/people/liuzikun/DataSet.html
    链接:https://pan.baidu.com/s/1gzwHD0Q358LNhpKoyiGHqA

    提取码:RSAI
    3大类27小类,共2,976个目标

    • aircraft carrier

      • Nimitz class aircraft carrier

      • Enterprise class aircraft carrier

      • Kitty Hawk class aircraft carrier

      • Admiral Kuznetsov aircraft carrier

      • Ford-class aircraft carriers

      • Midway-class aircraft carrier

      • Invincible-class aircraft carrier

    • warcraft

      • Arleigh Burke class destroyers

      • WhidbeyIsland class landing craft

      • Perry class frigate

      • Sanantonio class amphibious transport dock

      • Ticonderoga class cruiser

      • Abukuma-class destroyer escort

      • Austen class amphibious transport dock

      • Tarawa-class amphibious assault ship

      • USS Blue Ridge (LCC-19)

      • Command ship A

      • Warcraft A

      • Medical ship

    • merchant ship

      • Container ship

      • Car carrier A

      • Hovercraft

      • yacht

      • Container ship A

      • Cruise ship

      • Car carrier B

    • Submarine
      Alt

    10.VEDAI

    VEDAI是一个用于航空图像车辆检测的数据集,可作为基准测试无约束环境下自动目标识别算法的工具。数据库中包含的车辆,除了体积小,还表现出不同的变化,如多方向、灯光/阴影变化、反射或闭塞。此外,每幅图像都有几个光谱波段和分辨率。同时给出了一套精确的实验方案,保证了不同人的实验结果能够得到正确的再现和比较。我们还给出了一些基线算法在该数据集上的性能,这些算法的不同设置,以说明任务的困难,并提供基线比较。

    9类,共3640个目标

    • plane
    • boat
    • camping car
    • car
    • pick-up
    • tractor
    • truk
    • van
    • other
      下载地址:https://downloads.greyc.fr/vedai/

    论文链接:https://downloads.greyc.fr/vedai/

    链接:https://pan.baidu.com/s/1DPVD9au5t-l3za4kG9t2ug

    提取码:RSAI
    Alt

    11.Cars Overhead With Context(COWC)

    Cars Overhead With Context (COWC) 数据集是一个大型的、来自架空的带注释的汽车集。这对训练一个像深度网络这样的设备来学习检测和/或计数汽车。

    数据集具有以下属性:

    (1)地面上每像素分辨率为15厘米的高空数据(所有数据均为EO)。

    (2)来自六个不同地点的数据:加拿大多伦多,新西兰塞尔温,德国波茨坦和瓦伊辛根,美国哥伦布和犹他州。

    (3)32716辆有独特注释的车。58247个独特的反面例子。

    (4)故意选取硬性反面例子。

    (5)建立检测计数任务基线。

    (6)验证后使用的额外测试场景。

    下载地址:https://gdo152.llnl.gov/cowc/
    Poster Paper
    Github: https://github.com/LLNL/cowc
    Alt

    12.ITCVD

    这些图像是从一个飞机平台上拍摄的,该平台在荷兰恩斯赫德上空飞行 (sragboomen Peeters,2017)。这些图像是在最低点视图和倾斜视图中拍摄的。斜视的倾斜角度为45度。Thenadir图像的地面采样距离 (GSD) 为10cm。135imageswth 23543辆车辆用于训练,其余38幅图像5545辆用于测试。使用boundingbox手动注释数据集中的每个车辆,该boundingbox表示为 (x,y,w,h)其中 (x,y) 是盒子左上方角落的配合物,以及 (w,h) 分别为是盒子的相对宽度和高度。

    下载地址:https://eostore.itc.utwente.nl:5001/fsdownload/zZYfgbB2X/ITCVD

    链接:https://pan.baidu.com/s/14ucuCdG5EQYAOSelWXYyhA

    提取码:RSAI
    Alt

    13.OpenSARShip

    OpenSAR是由上海交通大学高级传感技术中心(AST)开发的开放式SAR图像管理和处理平台,用于SAR图像的读取,处理,可视化和算法测试。SAR图像管理和算法测试是OpenSAR的主要任务。

    OpenSAR支持导入各种SAR数据源,例如TerraSAR-X,RADARSAT 1/2,COSMO-SkyMed等。用户可以通过该平台搜索和查看SAR图像数据。OpenSAR支持注册各种算法,例如图像去噪,场景分类,目标检测,目标识别,变化检测等。用户可以通过该平台搜索,配置和执行这些算法,并且完整的测试报告也将提供给用户。

    下载地址:http://opensar.sjtu.edu.cn/
    Alt

    14.DLR 3K Vehicle

    DLR 3K车辆:DLR 3K车辆数据集(Liu and Mattyus, 2015)是另一个设计用于车辆检测的数据集。它包含20张5616 3744航拍图像,空间分辨率为13厘米。它们是在距地面1000米的高空使用DLR 3K摄像机系统(一种近乎实时的机载数字监控系统)在德国慕尼黑地区拍摄的。有14235辆车是通过在图片中使用定向包围框手动标记的。
    链接: https://www.dlr.de/eoc/en/desktopdefault.aspx/tabid-12760/22294_read-52777

    链接:https://pan.baidu.com/s/1xH12NLMZtxPTlyVvzSb_Xg

    提取码:RSAI
    Alt

    15.SZTAKI‐INRIA

    SZTAKI INRIA: SZTAKI INRIA数据集(Benedek et al., 2011)用于基准测试各种建筑8检测方法。它由665个建筑组成,用定向边界框手工标注,分布在来自曼彻斯特(英国)、Szada和布达佩斯(匈牙利)、Cot d Azur和诺曼底(法国)和Bodensee(德国)的9幅遥感图像中。所有的图像只包含红色®、绿色(G)和蓝色(B)三个通道。其中,两幅图像(Szada和Budapest)是航空图像,其余七幅图像是来自QuickBird、IKONOS和谷歌Earth的卫星图像。
    链接:http://web.eee.sztaki.hu/remotesensing/building_benchmark.html

    16.LEVIR

    LEVIR数据集由大量 800 × 600 像素和0.2m〜1.0m /像素的高分辨率Google Earth图像和超过22k的图像组成。LEVIR数据集涵盖了人类居住环境的大多数类型地面特征,例如城市,乡村,山区和海洋。数据集中未考虑冰川,沙漠和戈壁等极端陆地环境。数据集中有3种目标类型:飞机,轮船(包括近海轮船和向海轮船)和油罐。所有图像总共标记了11k个独立边界框,包括4,724架飞机,3,025艘船和3,279个油罐。每个图像的平均目标数量为0.5。
    数据下载地址:http://levir.buaa.edu.cn/Code.htm
    数据论文地址:Random Access Memories: A New Paradigm for Target Detection in High Resolution Aerial Remote Sensing Images

    链接:https://pan.baidu.com/s/1hVx74Q4waNRKsC6yEhrHoQ

    提取码:RSAI
    Alt

    17.SSDD

    在数据集SSDD中,一共有1160个图像和2456个舰船,平均每个图像有2.12个舰船,数据集后续会继续扩充。相比于具有20类目标的PASCAL VOC数据集,SSDD虽然图片少,但是类别只有舰船这一种,因此它足以训练检测模型。

    链接: https://zhuanlan.zhihu.com/p/58404659

    链接:https://pan.baidu.com/s/1b4O9F4ErTXmzrv4K0p8KOA

    提取码:RSAI
    Alt

    18.SSDD+

    SSDD+的数据集相对于SSDD数据将垂直边框变成了旋转边框,旋转边框可在完成检测任务的同时实现了对目标的方向估计。
    Alt

    19.AIR-SARShip-1.0

    高分辨率SAR舰船检测数据集-1.0(AIR-SARShip-1.0)首批发布31幅图像,图像分辨率包括1m和3m,成像模式包括聚束式和条带式,极化方式为单极化,场景类型包含港口、岛礁、不同等级海况的海面,目标覆盖运输船、油船、渔船等十余类近千艘舰船。图像尺寸约为3000×3000像素,图像格式为Tiff、单通道、8/16位图像深度,标注文件提供相应图像的长宽尺寸、标注目标的类别以及标注矩形框的位置。
    下载地址:AIR-SARShip-1.0:高分辨率SAR舰船检测数据集
    参考文献:http://radars.ie.ac.cn/article/doi/10.12000/JR19097?viewType=HTML

    链接:http://opensar.sjtu.edu.cn/

    链接:https://pan.baidu.com/s/1368GpoHXVKpZUV6ChxAdrQ

    提取码:RSAI
    Alt

    20.SAR-ship-Dataset

    该数据集以我国国产高分三号SAR数据和Sentinel-1 SAR数据为主数据源,共采用了102景高分三号和108景Sentinel-1 SAR图像构建高分辨率SAR船舶目标深度学习样本库。目前,该深度学习样本库包含43819船舶切片。高分三号的成像模式是Strip-Map (UFS)、Fine Strip-Map 1 (FSI)、Full Polarization 1 (QPSI)、Full Polarization 2(QPSII)和Fine Strip-Map 2 (FSII)。这5种成像模型的分辨率分别是3m、5m、8m、25m和10m。Sentinel-1的成像模式是条带模式(S3和S6)和宽幅成像模式。
    下载链接:https://github.com/CAESAR-Radi/SAR-Ship-Dataset
    参考文献:A SAR Dataset of Ship Detection for Deep Learningunder Complex Backgrounds

    链接:https://pan.baidu.com/s/1AC0NMouOJ1bOnubL_JCkHw

    提取码:RSAI
    Alt

    21.HRSID

    该数据集是电子科技大学的苏浩在2020年1月发布数据集,HRSID是高分辨率sar图像中用于船舶检测、语义分割和实例分割任务的数据集。该数据集共包含5604张高分辨率SAR图像和16951个ship实例。ISSID数据集借鉴了Microsoft Common Objects in Context (COCO)数据集的构建过程,包括不同分辨率的SAR图像、极化、海况、海域和沿海港口。该数据集是研究人员评估其方法的基准。对于HRSID, SAR图像的分辨率分别为:0.5m, 1 m, 3 m。
    下载链接:https://github.com/chaozhong2010/HRSID

    链接:https://pan.baidu.com/s/1H0BYLh_av_9TyR3YIoRjjQ

    提取码:RSAI
    Alt

    22.MSTAR

    MSTAR数据库作为SAR图像自动目标识别(SAR ATR)研究的一个通用库,被很多学者广泛采用。从现有的SAR ATR系统处理流程来看,目标检测作为该系统的前端,很大程度上影响系统后续识别性能,在较好的检测性能下获得的目标区域可以直接进行分类识别,避免了鉴别阶段进一步减少虚警目标。目标识别作为该系统的后端处理部分,是整个系统的重点也是难点。

    下载地址:

    链接:https://pan.baidu.com/s/1wmDws19NbjqOyy3HwLpUUg

    提取码:RSAI
    Alt

    23.VisDrone2019-DET

    10 类,共54200个目标

    • prdestrian

    • People

    • Bicycle

    • Car

    • Van

    • Truck

    • Tricycle

    • Awning-tricycle

    • Bus

    • Motor

    • Others
      Alt

    24.MASATI

    2大类7小类
    下载地址:https://www.iuii.ua.es/datasets/masati/

    链接:https://pan.baidu.com/s/1CZlKbpAwfijVpeo0FJERlQ

    提取码:RSAI

    • ship

      • ship

      • detail

      • multi

      • cosat&ship

    • non-ship

      • sea

      • coast

      • land

    25.airbus-ship-detection

    从卫星图片中找到所有的船只
    下载地址:https://www.kaggle.com/c/airbus-ship-detection

    链接:https://pan.baidu.com/s/1hma2irpBFq__fD-i_WiaPg

    提取码:RSAI
    Alt

    26.CARPK

    下载地址:https://lafi.github.io/LPN/

    链接:https://pan.baidu.com/s/1joNZF0s4TJTBlrynL90WFA

    提取码:RSAI
    Alt

    27.MAFAT Challenge

    目标是对航空影像数据中发现的不同对象进行分类。该分类包括主要类别的粗粒度分类(例如,大型车辆)和子类别和独特特征的精细粒度分类(例如,具有天窗的汽车)。

    数据集包括从不同地理位置,不同时间,分辨率,区域覆盖范围和图像采集条件(天气,太阳方向,相机方向等)拍摄的航空影像。图像分辨率在5cm至15cm GSD(地面采样距离)之间变化。

    • 小型车

    子类-轿车,掀背车,小型货车,货车,皮卡车,吉普车,公共车辆。

    特征-天窗,行李架,开放式货运区域,封闭式驾驶室,撞毁,备用轮胎。

    颜色-黄色,红色,蓝色,黑色,银色/灰色,白色,其他。

    • 大型车辆

    子类-卡车,轻型卡车,水泥搅拌车,专用农用车,起重机,原动机,油轮,公共汽车,小巴。

    特点-敞开的货物区域,交流通风口,撞毁的,封闭的箱子,封闭的驾驶室,梯子,平板车,软壳箱,利用推车固定。

    颜色-黄色,红色,蓝色,黑色,银色/灰色,白色,其他。
    链接:https://competitions.codalab.org/competitions/19854

    Alt

    28.OIRDS

    5类,共1800个目标

    • car

    • pick-up

    • truck

    • van

    • unknown

    链接: https://sourceforge.net/projects/oirds/

    链接:https://pan.baidu.com/s/1AmUM7RXtSzcgfiJf1J-5Ug

    提取码:RSAI

    29.Bridge Dataset

    该数据集由500个图像组成,每个图像至少包含一个桥。此数据集具有从世界不同地区收集的样本,由于图像和桥梁的属性(例如建筑的方向,景观背景(河流或山脉),区域(城市或乡村), 等等所有图像均具有4,800×2,843像素,并由我们的团队手动注释。 首先根据OpenStreetMap(可公开使用的注释映射框架)选择桥梁,然后从Google Earth导出。
    下载地址:http://www.patreo.dcc.ufmg.br/2019/07/10/bridge-dataset/

    链接:https://pan.baidu.com/s/12qro1i_NzJKVSqptJn7p6Q

    提取码:RSAI
    Alt

    30.Functional Map of the World Challenge

    功能性世界地图(fMoW),目的是促进机器学习模型发展,使其能够从卫星的时序影像和一组丰富的元数据特征中预测出建筑物作用和土地利用。在对影像中对象进行预测时,每张影像的元数据可支持位置、时间,太阳角度、物理尺寸等特性的推理。数据集包含来自超过200个国家的100万张影像,每张影像至少有一个包围盒注释,其属于包含“误检测”类的63个类别之一。
    下载地址:https://www.iarpa.gov/challenges/fmow.html
    https://github.com/fMoW/dataset
    Alt

    31.rscup

    遥感图像目标检测识别竞赛即利用算法模型对遥感图像中的一个或多个目标的类别和位置进行自动化判定与识别。本项竞赛以包含典型地物目标的遥感图像为处理对象,参赛队伍使用主办方提供的图像进行带方向的目标检测与识别处理,主办方依据评分标准对检测识别结果进行综合评价。遥感图像目标检测识别竞赛即利用算法模型对遥感图像中的一个或多个目标的类别和位置进行自动化判定与识别。本项竞赛以包含典型地物目标的遥感图像为处理对象,参赛队伍使用主办方提供的图像进行带方向的目标检测与识别处理,主办方依据评分标准对检测识别结果进行综合评价。
    下载地址:http://rscup.bjxintong.com.cn/#/theme/2

    链接:https://pan.baidu.com/s/10wCm7X_gz71FIBcehHdkmQ

    提取码:RSAI
    Alt

    32.CrowdAI Mapping Challenge

    链接:https://www.crowdai.org/challenges/mapping-challenge
    https://www.jianshu.com/p/90efc39975da

    下载地址:

    链接:https://pan.baidu.com/s/1Pzb5IWUYhZl54prk_gX65A

    提取码:RSAI
    Alt


    -------------2021年02月02日更新-----------------------

    33.UAVDAT

    UAVDT是ICCV2018提出的一个数据集,共包含80000帧图片,不仅可以用于目标跟踪,也可以用于目标检测等。
    链接:https://sites.google.com/site/daviddo0323/projects/uavdt
    链接:https://pan.baidu.com/s/1XNmZjxdK6KYhMugmpjY6-Q
    提取码:RSAI
    在这里插入图片描述

    34.航拍着火点

    该数据集是由无人机在亚利桑那州松树林的规定燃烧堆积杂物期间收集的火灾图像数据集。该数据集包括红外相机拍摄的视频记录和热图。捕获的视频和图像按帧标注,可以帮助研究人员轻松建立模型。
    在这里插入图片描述在这里插入图片描述
    论文:https://arxiv.org/pdf/2012.14036v1.pdf
    代码:https://github.com/AlirezaShamsoshoara/Fire-Detection-UAV-Aerial-Image-Classification-Segmentation-UnmannedAerialVehicle
    链接:https://pan.baidu.com/s/1oGXKrJyRZXSjaLP35KYgJw
    提取码:RSAI

    35.航拍杨梅树

    杨梅树[Myrica rubra (Lour.) S. et Zucc]是一种常绿乔木,树高5-15 m,胸径可达60 cm,树冠可达5 m以上。杨梅树广泛分布在我国江南地区,生长于海拔1500 m以下酸性红壤、山坡向阳的地理环境中。杨梅果是具有江南地理特色的水果。作者于2019年1月23日-24日选择浙江省永嘉县大洋山森林公园作为试验区,采用大疆Phantom4无人机进行航拍,在此基础上对杨梅树树冠进行多边形标记,即采用Mask RCNN(Region Convolutional Neural Networks)深度学习模型对杨梅树进行自动识别,对识别结果运用目视解译方法验证。结果表明,Mask RCNN在杨梅树识别方面有较高精度,总体检出率达90.08%,错检率为9.62%,漏检率为9.92%。杨梅树识别深度学习模型实验数据集包括:(1)杨梅树实验样区(浙江省永嘉县大洋山森林公园) 照片3080张,每张照片像素尺寸为5472 x 3648;(2)杨梅树树冠样本标记数据(298张);(3)杨梅树深度学习模型识别结果数据。该数据集以.jpg、.json格式存储,由3690个数据文件组成,数据量为25.6 GB(压缩为71个文件,25.5 GB)。
    在这里插入图片描述

    链接:http://www.geodoi.ac.cn/doi.aspx?Id=1269
    链接:https://pan.baidu.com/s/1OHDJlD7dnrjTO2TRByeTGg
    提取码:RSAI

    36.多类型飞机检测(WH)

    谷歌地图标注的30多类飞机类型包括[‘c17’, ‘c5’, ‘helicopter’, ‘c130’, ‘f16’, ‘b2’, ‘other’, ‘b52’, ‘kc10’, ‘command’, ‘f15’, ‘kc135’, ‘a10’, ‘b1’, ‘aew’, ‘f22’, ‘p3’, ‘p8’, ‘f35’, ‘f18’, ‘v22’, ‘f4’, ‘globalhawk’, ‘u2’, ‘su-27’, ‘il-38’, ‘tu-134’, ‘su-33’, ‘an-70’, ‘su-24’, ‘tu-22’, ‘il-76’]
    在这里插入图片描述
    链接:https://wanghao.blog.csdn.net/

    -------------2021年02月20日更新-----------------------

    37.ParePlanes

    数据集的真实部分由253个Maxar WorldView-3卫星场景组成,分布在112个位置,并带有14,700架手动标注的飞机,总面积为2,142 km ^ 2。随附的合成数据集是通过AI.Reverie的新型模拟平台生成的,具有50,000个合成卫星图像和约630,000个飞机注释。实际和合成生成的飞机均具有10种细粒度属性,包括:飞机长度,机翼跨度,机翼形状,机翼位置,机翼跨度,推进力,发动机数量,垂直稳定器数量,鸭翼和飞机角色。在这里插入图片描述
    地址:https://www.cosmiqworks.org/RarePlanes/

    38.highD

    该数据集是德国高速公路上记录的自然车辆轨迹的新数据集,适用于多种任务,例如交通模式分析或驾驶员模型的参数化。使用无人机,通过航空视角克服已建立的交通数据收集方法(例如遮挡)的典型限制。记录选取在六个不同的地点,包括超过110 000辆车辆。每个车辆的轨迹,包括车辆类型,尺寸和机动,都会被自动提取。使用最先进的计算机视觉算法,定位误差通常小于十厘米。
    在这里插入图片描述
    地址:https://www.highd-dataset.com/

    39.ERA_Dataset

    ERA(航拍视频中的事件识别),由2,864个视频组成,每个视频都有来自25个不同类别的标签,对应于展开5秒的事件。 ERA数据集旨在具有显着的类内差异和类间相似性,并捕获不同环境和不同规模下的动态事件。
    在这里插入图片描述

    地址:https://lcmou.github.io/ERA_Dataset/

    40.AU-AIR Dataset

    在这里插入图片描述
    地址:https://bozcani.github.io/auairdataset

    41.MOR-UAV Dataset

    在这里插入图片描述
    地址:https://visionintelligence.github.io/Datasets.html#

    42.ABD Dataset

    在这里插入图片描述
    地址:https://visionintelligence.github.io/Datasets.html#

    展开全文
  • 遥感图像目标检测研究综述

    千次阅读 2022-04-10 21:16:56
    遥感图像目标检测研究综述

    遥感图像特殊性

    • 尺度多样性:航空遥感图像可从几百米到近万米的高度进行拍摄,且地面目标即使是同类目标也大小不一,如港口的轮船大的有300多米,小的却只有数十米。
    • 视角特殊性:航空遥感图像的视角基本都是高空俯视,但常规数据集大部分还是地面水平视角,所以同一目标的模式是不同的,在常规数据集上训练的很好的检测器,使用在航空遥感图像上可能效果很差。
    • 小目标问题:航空遥感图像的目标很多都是小目标(几十个甚至几个像素),这就导致目标信息量不大,基于CNN的目标检测方法在常规目标检测数据集上一骑绝尘,但对于小目标检测而言,CNN的Pooling层会让信息量进一步减少,一个24*24的目标经过4层pooling后只有约1个像素,使得维度过低难以区分。
    • 多方向问题:航空遥感图像采用俯视拍摄,目标的方向都是不确定的(而常规数据集上往往有一定的确定性,如行人、车辆基本都是立着的),目标检测器需要对方向具有鲁棒性。
    • 背景复杂度高:航空遥感图像视野比较大(通常有数平方公里的覆盖范围),视野中可能包含各种各样的背景,会对目标检测产生较强的干扰。

    一、目标检测研究综述

    1.介绍

    目标检测一直以来都是计算机视觉领域的研究热点之一,其任务是返回给定图像中的单个或多个特定目标的类别与矩形包围框坐标。目标检测任务具有很高的挑战性和更加广阔的应用前景,如自动驾驶、人脸识别、行人检测、医疗检测等等。同时,目标检测也可以作为图像分割、图像描述、目标跟踪、动作识别等更复杂的计算机视觉任务的研究基础。

    • General Object Detection:探索在统一的框架下检测不同类型物体的方法,以模拟人类的视觉和认知。
    • Detection Applications:特定应用场景下的检测,如行人检测、人脸检测、文本检测。

    2.传统目标检测

    早期的目标检测算法大多是基于手工特征构建的。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,以及各种加速技术来用尽有限的计算资源。

    1. Viola Jones Detectors
      18年前,P.Viola和M.Jones在没有任何约束条件(如肤色分割)的情况下首次实现了人脸的实时检测。在700MHz Pentium III CPU上,在同等检测精度下,检测器的速度是其他算法的数十倍甚至数百倍。这种检测算法,后来被称为“维奥拉-琼斯”(VJ)检测器”。VJ检测器采用最直接的检测方法。即,滑动窗口:查看图像中所有可能的位置和比例,看看是否有窗口包含人脸。VJ检测器结合了 “ 积分图像 ”、“ 特征选择 ” 和 “ 检测级联 ” 三种重要技术,大大提高了检测速度。
    2. HOG Detector
      方向梯度直方图(HOG)特征描述符最初是由N.Dalal和B.Triggs在2005年提出的。HOG可以被认为是对当时的尺度不变特征变换(scale-invariant feature transform)和形状上下文(shape contexts)的重要改进。为了平衡特征不变性 ( 包括平移、尺度、光照等 ) 和非线性 ( 区分不同对象类别 ),将HOG描述符设计为在密集的均匀间隔单元网格上计算,并使用重叠局部对比度归一化 ( 在“块”上 ) 来提高精度。虽然HOG可以用来检测各种对象类,但它的主要动机是行人检测问题。若要检测不同大小的对象,则HOG检测器在保持检测窗口大小不变的情况下,多次对输入图像进行重新标度。多年来,HOG检测器一直是许多目标检测器和各种计算机视觉应用的重要基础。
    3. Deformable Part-based Model (DPM)
      DPM作为voco -07、-08、-09检测挑战的优胜者,是传统目标检测方法的巅峰。DPM最初是由P.Felzenszwalb提出的,于2008年作为HOG检测器的扩展,之后R.Girshick进行了各种改进。DPM遵循“分而治之”的检测思想,训练可以简单地看作是学习一种正确的分解对象的方法,推理可以看作是对不同对象部件的检测的集合。一个典型的DPM检测器由一个根过滤器(root-filter)和一些零件滤波器(part-filters)组成。该方法不需要手动指定零件滤波器的配置 ( 如尺寸和位置 ),而是在DPM中开发了一种弱监督学习方法,所有零件滤波器的配置都可以作为潜在变量自动学习。R.Girshick将这个过程进一步表述为一个多实例学习的特殊案例,“硬负挖掘”、“边界框回归”、“上下文启动”等重要技术也被用于提高检测精度。为了加快检测速度,R.Girshick开发了一种技术,将检测模型 “ 编译 ” 成一个更快的模型,实现了级联结构,在不牺牲任何精度的情况下实现了超过10倍的加速度。

    3.基于深度学习目标检测

    随着手工特征的性能趋于饱和,目标检测在2010年之后达到了一个稳定的水平。R.Girshick等人在2014年率先将卷积神经网络应用到目标检测中,提出了具有CNN特征的区域(RCNN)用于目标检测。从那时起,目标检测开始以前所未有的速度发展。
    目标检测算法主要分为三个步骤:图像特征提取、候选区域生成与候选区域分类

    R-CNN系列为代表的两阶段算法

    首先在图像上通过启发式方法或者卷积神经网络生成一系列可能存在潜在目标的候选区域,然后对每一个候选区域依次进行分类与边界回归。

    1. R-CNN
      (1)采用选择性搜索生成可能包含潜在目标的候选区域;(2)将所有候选区域采样至某一固定分辨率后,逐一输入卷积神经网络,提取出固定长度的特征向量;(3)采用多个支持向量机对所有特征向量进行分类;(4)根据已知类别和提取出的特征向量,对矩形框进行回归修正,从而进一步提高定位精度。
      优势:相较于传统算法,R-CNN的最大创新点在于不再需要人工设计特征算子,而是引入卷积神经网络去自动学习如何更好地提取特征,实验结果也证明这样做是更有效的。
      缺陷:(1)虽然在提取特征向量时使用了CNN,但生成候选区域采用的选择性搜索算法却还是基于底层视觉特征,因此候选框质量不高;(2)算法的三个模块是相互独立的,导致训练过程繁琐,无法实现端到端的训练,且不能获得全局最优解;(3)在提取特征向量时,每个候选区域都会被单独从原图上裁剪下来,再依次输入神经网络,这样做既占用了大量磁盘空间,也带来了很多的重复计算,导致训练速度和推断速度都非常缓慢。
    2. SPP-Net
      不再将候选区域依次通入CNN,而是直接计算整张图的特征图,然后划分出每一个候选区域的特征。在全连接层之前,为了统一特征向量的长度,新增一个SPP层,通过池化操作将任意输入都转化为固定长度的输出。
      优势:显著加速了训练和推断的过程。
      缺陷:SPP-Net的精度和R-CNN并无明显差别,而且它的算法流程依旧是独立的多个模块,保存特征向量依旧需要大量存储空间。
    3. Fast R-CNN
      Fast R-CNN吸纳了SPP-Net的思想,对整张图进行一次性的特征计算,新提出的RoI池化层相当于SPP层的简化版。除此以外,Fast R-CNN为了简化流程,不再使用支持向量机进行分类,也不再使用额外的回归器,而是设计了多任务损失函数,直接训练CNN在两个新的网络分支上分别进行分类和回归。
      优势:将特征提取、分类、回归整合为了一步,这样就不再需要中途保存特征向量,解决了存储空间的问题;而且在训练时能够进行整体的优化,因此取得了更高的精度。
      缺陷:(1)候选框的生成依旧是完全独立的。选择性搜索等传统算法是基于图像的底层视觉特征直接生成候选区域,无法根据具体的数据集进行学习。(2)选择性搜索非常耗时。在 CPU上处理一张图像需要 2秒。
    4. Faster R-CNN
      设计了RPN候选框生成网络。(1)RPN的输入是已有的Fast R-CNN的骨架网络所提取的整张图像的特征图,这种共享特征的设计既充分利用了CNN的特征提取能力,又节省了运算;(2)提出了锚点(Anchor)概念, RPN基于预先设定好尺寸的锚点进行分类(前景或背景)和回归,既确保了多尺度的候选框的生成,也让模型更易于收敛。RPN生成候选区域之后,算法剩余的部分和Fast R-CNN一致。
      优势:RPN取代选择性搜索算法,Faster R-CNN最终在GPU上的检测速度达到了5FPS,打破了PASCAL VOC数据集的记录;同时,它还是第一个真正实现了端到端训练的检测算法,标志着两阶段检测器的正式成型。

    自Faster R-CNN问世之后,新诞生的两阶段检测器几乎都是以它为雏形。Dai等人提出的R-FCN为了进一步提高Faster R-CNN的效率,去除了各分支独立的计算耗时的全连接层,设计了位置敏感得分图和位置敏感RoI池化层来保留空间信息,显著提高了推断速度与精度。Lin等人考虑到网络深层特征有较强语义信息,而浅层特征有较强空间信息,提出了将深层特征图通过多次上采样和浅层特征图逐一结合的FPN架构,基于多层融合后的特征图进行输出,能够更好地检测到不同尺度的目标,是多尺度目标检测的里程碑。He等人提出的Mask R-CNN在Faster R-CNN基础上将RoI池化层替换成了RoI对齐层,使得特征图和原图像素的能对齐得更精准,并新增了一个掩膜分支用于实例分割。令人惊讶的是,该算法不仅在实例分割任务上取得了优秀表现,对分类、回归、掩膜分支同时进行多任务训练也提高了目标检测任务的性能。 Qin等人则提出了轻量级的二阶段检测器ThunderNet:通过为检测任务定制的轻量级骨架网络SNet、对RPN和检测头的压缩和CEM、SAM等模块的引入,让模型在速度和精度方面超越了不少一阶段检测器。

    YOLO、SSD为代表的一阶段算法

    仅使用一个卷积神经网络直接在整张图像上完成所有目标的定位和分类,略过了生成候选区域这一步骤。

    1. OverFeat
      (1)采用卷积层替代全连接层实现全卷积神经网络,适应不同分辨率的图像作为输入,相当于用卷积来快速实现滑动窗口算法;(2)采用同一个卷积神经网络作为共享的骨架网络,通过更改网络头部来分别实现分类、定位和检测任务。
      优势:OverFeat比R-CNN的检测速度快了 9 倍。
      缺陷:精度不如同期R-CNN。
    2. YOLO
      将输入图像划分为7*7的网格,每一个网格负责预测中心点处于该网格内的目标,回归中心点相对于网格的位置、目标的长宽和类别。YOLO的损失函数由定位损失、置信度损失、分类损失三部分组成,其中置信度是指是否存在目标。可以看到,YOLO是一个端到端的算法,没有候选框这一概念,输入一张图片,在检测到前景的同时就回归得到了需要的属性。
      优势:YOLO算法真正实现了实时性目标检测,其检测速度能够达到45FPS, Fast YOLO 甚至能到155FPS,比二阶段检测器快了一个数量级。除此以外,YOLO在检测时考虑了更多的背景信息,因此将背景误判为前景的概率比FastR-CNN要低很多。
      缺陷:(1)每一个网格只检测2个目标,且规定为同一类别,导致算法难以处理密集目标的检测;(2)精度比Fast R-CNN要差,尤其体现在定位上,主要原因在于后者经过了从整体到局部的两次矩形框回归,而YOLO只经过了一次;(3)由于全连接层的存在,输入图像的分辨率是固定的;(4)只在单张特征图上检测目标,导致算法难以驾驭多尺度目标的检测。
    3. SSD
      (1)训练网络在多个不同深度的特征层上预测不同尺度的目标,最后进行整合;(2)引入 Faster R-CNN的锚点概念,使模型更容易收敛,保证不同感受野的特征图适应不同尺度的目标检测;(3)使用全卷积神经网络,适应不同分辨率的图像输入;(4)损失函数由定位损失和分类损失组成,没有YOLO的前景置信度的概念,因为它在分类时直接将背景也视为一个类别,和其他类别同时进行预测。此外,SSD在特征图上铺设了密集的锚点,而有效匹配目标的锚点个数是很有效的,若直接进行采用所有样本进行训练,会存在严重的正负样本不平衡问题。于是,SSD采用了难例挖掘的手段来缓解这一问题。
      优势:SSD的检测速度能和YOLO媲美,而精度能够匹敌Faster R-CNN。
      缺陷:相对于Faster R-CNN,小目标的检测结果并未能得到明显改善。

    新诞生的一系列一阶段检测器虽然普遍有着绝对的速度优势,但和顶尖的二阶段检测器也存在着不可忽视的精度差距。Lin 等人认为,两类算法最本质的区别在于后者通过对候选框的筛选,保证了第二阶段训练样本的高质量和类别的均衡,而前者必须在图像上每一个滑动窗口处进行预测,换言之即存在严重的正负样本不均衡和难易样本不均衡。因此,他们为一阶段检测器设计了新的损失函数Focal Loss。Focal Loss在交叉熵损失函数的基础上引入了两个新参数,一个用于降低负样本的权重,另一个用于降低简单样本的权重,让模型在训练时能够避免被一阶段算法存在的大量负样本、简单样本转移注意力。实验测试中,作者采用ResNet和特征金字塔网络架构设计了简单的一阶段检测器RetinaNet,并应用Focal Loss进行训练,最终在MS COCO测试集上展现出了超越Faster R-CNN的精度,尤其体现在小样本的检测上。YOLOv2之后,Redmon等再次对其进行升级,提出了YOLOv3。YOLOv3主要有三个改进点:(1)采用多个逻辑回归分类器取代softmax分类器,使模型能适用于类别间存在交集的分类任务;(2)引入特征金字塔网络架构,对最深层特征图进行两次上采样,分别与浅层特征相融合,最后在三个特征层上设置不同的锚点,预测不同尺度的目标;(3)学习残差网络的思想,设计了Darknet-53作为新的骨架网络,在精度上能和Resnet-101、 ResNet152相匹敌,而速度更快。YOLOv3在当时实现了最好的速度与精度的权衡,也是目前工业界目标检测的首选算法之一。

    二、多尺度目标检测研究综述

    检测器在面对尺度跨度较大的数据集时会表现不佳的根本原因,是因为卷积神经网络在不断加深的过程中,表达抽象特征的能力越来越强,但浅层的空间信息也相对丢失。这就导致深层特征图无法提供细粒度的空间信息对目标进行精确定位,同时小目标的语义信息也在下采样的过程中逐渐丢失。
    在检测尺度较大、细节特征丰富的目标时,需要更强的语义信息作为分类依据;在检测尺度较小、偏差容忍度较小的目标时,则需要更细粒度的空间信息实现精确定位。
    解决尺度问题的一个通用的思路:构建多尺度的特征表达
    在这里插入图片描述

    1.基于图像金字塔的多尺度目标检测

    在训练阶段,随机输入不同尺度的图像,能够强迫神经网络适应不同尺度的目标检测;在测试阶段,对同一张图像以不同的尺度进行多次检测,最后采用非极大值抑制算法整合所有结果,能够使检测器覆盖尽可能大的尺度范围内的目标。
    优势:一定程度上提升整体精度。
    缺陷:高分辨率的图像输入既会增大内存开销,也会增加计算耗时。这不仅会导致训练时难以使用较大的批尺寸,影响模型精度,同时成倍增加的推断时间还会进一步抬高将算法投入实际应用的门槛。

    基于尺度生成网络的图像金字塔

    在进行多尺度检测时,金字塔的很多层实际上是没有检测到有效目标的,即存在着明显的资源浪费。其原因在于,每一张图像的目标的尺度分布都存在着显著差别:有的图像可能只有一种尺度的目标,因此实际只需要对金字塔的某一层进行检测;有的图像可能只有中等目标和大目标,因此金字塔里分辨率最高的那一层其实是不需要的,而那恰好是计算开销最大的一层。为了提高检测效率,他们认为:在正式进行目标检测之前,若能先判断图像内目标的尺度分布,就能去除图像金字塔中冗余的层,而且在已知目标尺度的情况下还可以对后续检测做进一步的优化。因此,他们设计了一个尺度生成网络,将原本的目标检测任务拆分为了尺度估计和单一尺度的目标检测这两步,如图所示。
    在这里插入图片描述
    尺度生成网络基于图像级别的监督信号进行训练,输出尺度直方图向量,经过均值滤波和一维的非极大值抑制操作后得到离散的目标尺度分布。由于已知目标尺度,因此后续的检测器只需要检测单一尺度的目标,所以可以将RPN的锚点的尺寸数缩减为1,这样能在不影响精度的前提下进一步提高检测速度。最后,将图像依次采样至目标尺度所对应的分辨率,再轮流进行检测,最后对所有结果进行汇总,完成多尺度目标的检测。

    基于尺度归一化的图像金字塔

    Singh等人就MS COCO数据集中大量的小目标带来的挑战,提出了名为尺度归一化图像金字塔(简称SNIP)的训练策略:采用图像金字塔训练模型,但是每一层都只提供合适的尺度范围内的监督信号,如图所示。
    在这里插入图片描述
    这样做的根本目的让模型专注于检测某一尺度范围内的目标,同时又通过金字塔的方式保证所有的训练数据都能够被学习。最后,在验证模型时同样采用图像金字塔。该策略可同时应用于Faster R-CNN的两个阶段,并对所有尺度的目标的检测精度带来全方位的提升。可以说,SNIP本质上是基于CNN的固有缺陷对传统的多尺度训练策略的一个改进,将图像金字塔的优势发挥到了机制。不过,该训练策略并未能解决图像金字塔的内存与时间开销问题。之后,Singh等人将SNIP升级为SNIPER。为了能够解决图像金字塔在训练时的内存限制,SNIPER不再是对完整的图像进行训练,而是从金字塔的每一层中裁剪出分辨率固定为512x512的碎片作为训练单元。其中,在不同层上以碎片大小为网格单元,选择囊括了该尺度下有效目标的网格作为碎片,即为训练时的正样本。而为了防止检测器将背景误判为目标,作者们也将包含了若干假正例的碎片作为负样本,共同参与训练。由于碎片的分辨率较小,因此就有效解决了图像金字塔的内存问题,在训练时可以使用更大的批尺寸,这样既加快了训练速度,也提高了模型的检测精度。不过,在实际应用模型检测目标时,仍然必须通入完整的图像金字塔,因此推断的计算耗时问题还有待解决。

    基于注意力机制的图像金字塔

    最早在深度学习目标检测中引入放大操作的是Lu等人提出的AZ-Net。他们认为RPN网络的锚点策略本质上是一个固定了滑动窗口大小的穷举算法,既效率不高,也对多尺度的目标不具备适用性。因此,他们设计了一个自适应搜索的候选区域生成算法AZ-Net。算法以整张图像作为搜索起点,提供邻接区域预测和放大指示器两种输出,前者指和该搜索区域尺度接近的一系列候选区域,后者是用于指示当前搜索区域内是否存在更小的目标。若存在,则将整张图像分为左上、左下、右上、右下、中间五个区域,依次作为新的搜索起点,直到所有区域都不再包含小目标为止。在PASCAL VOC数据集上的实验表明,该算法生成的候选区域比RPN网络生成的候选区域数量更少但质量更高,不过精度优势并不明显。Gao等人延续了AZ-Net的搜索的思想,通过引入具有决策能力的强化学习,设计了一个由粗到精的策略来检测高分辨率图像中的目标:首先用一个粗糙的Fast R-CNN对下采样后的低分辨率图像进行检测,生成准确率提升概率图,然后利用强化学习找到有可能包含小目标的区域,采用更精细的检测器对高分辨率的该区域进行目标检测,同时将该区域作为新的算法输入,再次通入粗糙检测器,如此循环,直到不再包含小目标。实验结果表明,在几乎未损失精度的前提下,该算法在Caltech行人检测数据集上的像素处理数量减少了50%、推断时间减少了25%,在YFCC100M数据集上的像素处理数量减少了70%、推断时间减少了50%。Uzkent等人延续了Gao等人的做法,同样是引入强化学习选择图像中需进一步查看的区域,不过区别在于,算法还会判断该区域是由大目标主导还是小目标,然后分别通过两种不同尺度的检测器进行检测,其目的在于进一步节省计算量。总的来说,这些算法都是源于注意力机制的思想,将多尺度目标检测视为由粗到细、从整体到细节的递归过程,流程如图所示。
    在这里插入图片描述
    这些算法可以看作是对图像金字塔的优化:从金字塔的最顶端开始检测,并利用强化学习判断金字塔的下一层中的哪一部分区域存在潜在目标,如此循环,直到下一层不再包括目标为止。所以,算法相当于利用强化学习的决策能力做引导,去除了图像金字塔的冗余部分,解决了SNIPER策略中仍然存在的推断时计算耗时严重的问题。

    2.基于网络内特征金字塔的多尺度目标检测

    早期以R-CNN为代表的检测器直接在神经网络的最后一层特征图上进行预测,由于细粒度空间特征的缺失,对小目标的检测效果不佳,因此需寻求多尺度的特征表示。图像金字塔虽能基于不同分辨率的输入提取不同尺度的特征,但又会带来严重的内存和时间开销,不具备适用性。因此,如果能在卷积神经网络内部构建多尺度的特征表示,就能够在只输入一次图像的情况下近似地得到图像金字塔所能提取的多尺度特征,且计算代价要小得多。现阶段主要通过以下两种方式构建网络内的特征金字塔:(1)基于跨层连接融合网络内不同深度的特征图,得到不同尺度的特征表示;(2)基于感受野不同的并行支路,构建空间金字塔。

    基于跨层连接构建特征金字塔

    考虑到卷积神经网络的层层相叠的结构,越深的特征图的感受野越大,因此网络内不同深度的特征图就形成了天然的多尺度表达,于是SSD算法和MS-CNN算法均提出,可以直接在这些不同尺度的特征图上分别检测目标并最后进行整合,其中浅层特征图负责检测小目标,深层特征图负责检测大目标。但是,从实验结果来看,小目标的检测精度却并未得到明显改善。究其原因,在于这些特征层因为深度各不相同,特征表示能力也各不相同,存在着显著的语义鸿沟。浅层特征层虽然保留了更为细粒度的空间信息,但特征表示能力太弱,缺少有效的语义信息,所以检测效果差。因此,直接在网络内不同深度的特征图上预测不同尺度的目标是不合适的,需要首先构建出每一层都具有足够特征信息的特征金字塔。针对SSD算法存在的缺陷,Lin等人提出了著名的特征金字塔网络FPN。FPN的核心思想在于融合网络内部的不同深度的特征信息,但是由上至下逐层融合的结构是值得商酌的,因此出现了一系列对此进行讨论和改进的算法。
    在这里插入图片描述
    上述方法都是在针对FPN提出的特征融合的方式做出改变,而Li等人则是对FPN的骨架网络本身进行了改进。多数检测器都是采用分类网络作为骨架网络(例如 ResNet),预训练也是在分类数据集上完成,这带来了两个问题:(1)FPN等检测器引入了未参与预训练的额外的网络阶段;(2)骨架网络的感受野和下采样系数均较大,虽有利于图像分类,但空间信息的缺失不利于大目标的精确定位,下采样过程中语义信息的丢失不利于小目标的识别,即便是引入了FPN架构也没有解决本质问题。为此,他们专门针对检测任务的需求设计了新的骨架网络DetNet-59,相比起ResNet-50有三点主要的区别:(1)网络和FPN有着相同的阶段数量,因此所有阶段都可以参与预训练;(2)从第四阶段开始,DetNet的下采样系数固定为16,通道数固定为256;(3)在残差模块中引入空洞卷积增加感受野。从实验结果来看,DetNet的参数量介于ResNet-50和ResNet-101之间,但在检测任务上的性能表现要优于它们。具体到不同尺度的目标,会发现DetNet尤其擅长定位大目标和寻找小 目标,符合作者预期。

    基于并行支路构建特征金字塔

    构建多尺度的特征表达,可以在网络内设计参数不同的并行支路,每条支路基于各自的感受野提取不同空间尺度下的特征图,进而构建出空间金字塔。在深度学习领域,空间金字塔可以追溯到 GoogLenet提出的Inception模块,模块内包含了四个分支,其中前三个分支分别用1x1、3x3和 5x5的卷积核进行的卷积操作,第四条分支进行最大池化,最后将所有分支的输出融合,如图所示。
    在这里插入图片描述
    虽然具体的实现方法有很大差异,但Inception模块和SPM的思想是一致的,都是为了提取图像在不同空间尺度下的特征。SPP-Net的SPP模块同样是采用的SPM的多尺度分块的方法,对每一分块进行池化操作,就能将任意大小的特征图转换为固定长度的特征向量。总而言之,构建空间金字塔同样是解决目标检测的尺度问题的一个可行方案。Zhao等人为了将全局信息和局部信息相结合,设计了类似于SPP模块的金字塔池化模块,模块内包含了四条分别进行1x1、2x2、3x3、6x6池化的分支提取多尺度信息,在语义分割任务上效果有明显提升。Kim等人提出的PFPNet同样是出于融合不同尺度的上下文信息的思想,在一阶段检测器里引入了包含三条支路的SPP模块,不过每个分支池化得到的特征图还经过了作者设计的 MSCA模块,分别与另外两个分支的输出特征进行了融合,将另外两个分支的特征图进行上下采样,然后和主干支路进行特征拼接。最后,在三条支路的输出特征图上分别进行目标检测,采用非极大值抑制算法汇总结果。从MS COCO数据集的实验结果来看,PFPNet比使用FPN架构的YOLOv3还要略胜一筹,流程如图所示。
    在这里插入图片描述

    3.多尺度目标检测的其他策略

    锚点

    早期的目标检测为了检测到不同尺度的目标,除了采用固定大小的滑动窗口在图像金字塔上逐层滑动以外,还可以采用不同大小的滑动窗口轮流在同一张图上滑动。Ren等人提出的RPN网络引入的锚点这一概念,相当于在骨架网络提取的特征图上设置了九个不同大小的滑动窗口作为检测的先验信息,以确保网络能够尽可能覆盖更大的尺度范围内的目标。虽然模型对于小目标的检测精度并不理想,但多尺度的锚点策略还是成为了后来多数检测器的标配,结合特征金字塔甚至能够进一步扩大锚点的尺度范围。
    缺陷:(1)锚点的尺寸需要预先定义,如果定义得不好会明显降低模型性能;(2)为了保证足够的召回率,往往需要大量的锚点,然而其中的大部分锚点都是对检测结果没有帮助的。

    交并比阈值

    在目标检测的训练过程中,我们通常基于预测矩形框和真实标签的交并比来确定正负样本,譬如交并比大于0.5的为正样本,小于0.3的为负样本。但是,这样的阈值设定主要是基于经验,并不一定是最优选择。而且,采用固定的交并比阈值对于多尺度目标检测来说更加不合适,因为相等的坐标偏差会对小目标的交并比造成更大影响,对于大目标的影响则微弱得多。为了尝试解决这一问题, Cai等人提出了Cascade R-CNN算法,将3个R-CNN网络分别设置0.5、0.6、0.7的交并比阈值,然后级联在一起。这样做的依据是,如果直接在单个网络上将交并比阈值提高,会使得正样本数量快速减少,导致了网络精度显著下降。因此,我们以级联的方式逐步提升生成的矩形框的质量,将前一个检测网络的输出作为后一个检测网络的输入,就能够不断适应更高的交并比阈值,且每一个网络都可以检测特定交并比范围内的目标。
    缺陷:级联结构对于精度的提升是显著的,不过也明显增加了训练时间和推断时间。同样是考虑到固定的交并比阈值并不合理。

    动态卷积

    传统的卷积神经网络存在着一个固有缺陷:卷积核的大小是固定的,池化层的尺度也是固定的,这就导致了网络内所有特征层的感受野始终是固定的,不利于感知不同尺度的目标。因此,便有了一系列方法尝试将卷积操作动态化。例如,空洞卷积的提出,让卷积层能够在参数量不变的情况下,感受野随着空洞卷积系数单调变化,这也使得神经网络能够更方便地捕获多尺度的特征。Dai等人提出的可变卷积进一步的对卷积计算的每一个采样点的位置都增加了一个偏置,让卷积核呈现出各式各样的形状,空洞卷积相当于是可变卷积的一种特例。同样的,池化层也可以增加偏置,进而被改造为可变池化。从实验的可视化结果来看,可变卷积的确能帮助神经网络更好地适应不同形状和尺度的目标。不过,Zhu等人又发现可变卷积因为偏置不可控,引入了过多的可能造成负面影响的上下文信息。因此他们对可变卷积进行了升级,让其不仅能学习偏置,还能学习到每个采样点的权重,相当于局部的注意力机制。总体来说,可变卷积这一设计显著增加了卷积神经网络的自由度,可以很好地和其他检测器兼容。
    缺陷:模型检测正确率得以提升,但是参数量也变为了原模型的3-4倍左右,因此目前而言难以推广到成熟的检测网络中。

    边界框损失函数

    L1和L2范数是经典的回归损失函数,在目标检测任务中可以用于对边界框进行回归。但是 L1损失函数的收敛速度较慢且解不稳定,L2损失函数对离群点敏感而不够鲁棒。因此Girshick提出了平滑L1损失函数,结合了两者的特点:相比起L1损失函数,在靠近真实值的时候,梯度值足够小,收敛更快;相比起L2 损失函数,离群点的梯度更小,更鲁棒。
    缺陷:(1)都是对矩形框的顶点坐标和长宽的偏移进行惩罚,无法直接反映预测框与真实框的相似程度;(2)都不具备尺度不变性。为了解决这一问题,Yu 等人提出了交并比损失函数,将矩形框视为一个整体,直接对比例形式的交并比求对数来指导边界回归,因此该损失函数就具备了尺度不变性,相比起 L2 损失函数在处理多尺度的目标时有着明显的效果提升。

    解耦分类与定位

    目标检测任务包含了目标分类和目标定位两部分,Faster R-CNN等传统算法在第二阶段普遍通过共享的全连接层对候选区域进行特征提取,最后再在两个分支上分别进行分类和回归。Song等人基于热度图分析指出,分类任务的敏感区域为目标的显著性区域,而定位任务的敏感区域则是目标的边界区域,两者在空间上无法对齐。显然,对于多尺度目标检测,随着目标的尺度增大,分类和定位任务在空间上的不对齐问题也会愈加严重。同样地,Wu等人则从全连接层和卷积层的特性出发,认为前者的空间敏感性使它更适合于进行分类,后者的权重共享的特点使它提取出的特征的空间相关性更强,更适合回归边界,实验结果证明了这一观点。为了解决分类与回归问题潜在的冲突,最直观的思路就是将两个任务进行解耦。

    小目标特征重建

    在MS-CNN算法中,为了能够更好地检测尺度较小的目标,网络中设计了反卷积层来对特征图进行上采样,有效减少了内存占用和计算耗时。Zhou等人提出的STOD算法里,以DenseNet-169作为骨架网络,设计了尺度变换模块将最后的多个通道的特征图通过平铺展开的方式构造为了分辨率更高、通道数更少的特征图,用来检测小目标。Zhang等人提出的DES算法为了能够加强SSD的浅层特征在检测小目标时缺失的语义信息,设计了一个分割模块的分支进行语义分割,将分割得到的特征图作为权重叠加到浅层特征图上,相当于一种注意力机制。从可视化的结果来看,浅层特征图上的无关特征得到了有效的抑制。

    数据增强

    数据增强同样是缓解尺度问题的可行方案,比如YOLOv2算法的随机多尺度训练策略。此外,Kisantal等人以Mask R-CNN作为基准线,针对MS COCO数据集的小目标检测精度较差的问题提出了两种数据增强的手段:(1)采用过采样策略,解决数据集中包含小目标的图片较少的问题;(2)在同一张图片里,对小目标的分割掩膜进行复制粘贴,使锚点策略能匹配到更多的小目标正样本,进而增加小目标在损失函数中的权重。该思路的本质是通过改变训练数据的目标尺度分布,让模型更倾向于去感知小目标。从实验结果来看,大目标的检测精度略有下降,小目标的检测精度有所提升。在目标检测任务中,为了提高检测器的整体性能,通常会采用额外的数据集对模型进行预训练,然后再在正式的数据集上进行微调,亦或是直接让额外数据集参与联合训练。

    三、其他目标检测任务

    • pedestrian detection(行人检测)
      在这里插入图片描述
    • face detection(人脸检测)
      在这里插入图片描述
    • text detection(文本检测)
      在这里插入图片描述
    • traffic light and sign(交通标志/灯光检测)
      在这里插入图片描述
    • remote sensing target detection(遥感目标检测等特定领域的检测)
      在这里插入图片描述
      高分辨率图像的多尺度目标检测:在对高分辨率图像进行目标检测时,往往并不缺少小目标的细节信息,而是难以实现精度与计算资源的权衡。由于受到内存、检测速度需求等限制,Faster R-CNN、 YOLO等算法都会先将高分辨率图像下采样至某一分辨率,再通入网络进行检测,这就导致了信息的丢失。若采用滑动窗口法实现地毯式检测,整体速度又太慢。 Gao等人提出的用强化学习引导细粒度检测的策略,对于日常设备拍摄的高分辨率图像是有一定效益的。但是,对于细粒度信息更密集的图像是否仍有效(例如无人机航拍),以及能否设计出更简洁的算法,都还有待进一步研究。

    四、评估目标探测器的有效性

           在行人检测的早期研究中,“每个窗口的漏报率与误报率(FPPW)” 通常用作度量检测性能的评价标准。然而,逐窗测量(FPPW)可能存在缺陷,在某些情况下无法预测的完整图像特性。2009年,加州理工学院(Caltech)建立了行人检测基准,从那时起,评估指标从每窗口(per-window,FPPW)改为每图像的伪阳性(false positive per-image,FPPI)。
           最早在VOC2007,对目标检测最常用的评估方法是 “ 平均精度(AP) ”。AP定义为不同召回情况下的平均检测精度,通常以类别特定的方式进行评估。为了比较所有对象类别的性能,通常使用所有对象类别的平均AP(mAP)作为性能的最终度量。为了测量目标定位精度,使用Union上的交集(Intersection over Union,IoU)来检查预测框和地面真实框之间的IoU是否大于预定义的阈值,比如0.5。如果是,则将该对象标识为 “ 成功检测到 ”,否则将标识为 “ 未检测到 ”。因此,基于mAP的0.5 -IoU多年来已成为用于目标检测问题的实际度量。
           2014年以后,由于MS-COCO数据集的普及,研究人员开始更加关注边界框位置的准确性。MS-COCO AP没有使用固定的IoU阈值,而是在多个IoU阈值上取平均值,阈值介于0.5(粗定位)和0.95(完美定 )之间。这种度量的变化鼓励了更精确的对象定位,并且对于一些实际应用可能非常重要 ( 例如,假设有一个机器人手臂试图抓住扳手 )。
           近年来,对开放图像数据集的评价有了进一步的发展,如考虑了组框(group-of boxes)和非穷举的图像级类别层次结构。一些研究者也提出了一些替代指标,如 “ 定位回忆精度 ”。尽管最近发生了一些变化,基于VOC/COCO的mAP仍然是最常用的目标检测评估指标。

    展开全文
  • 目标检测是计算机视觉的一个非常重要的核心方向,它的主要任务目标定位和目标分类。 在深度学习介入该领域之前,传统的目标检测思路包括区域选择、手动特征提取、分类器分类。由于手动提取特征的方法往往很难满足...
  • 基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自《光学精密工程》,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究。目标检测旨在给定...
  • 综述:目标检测二十年(2001-2021)

    千次阅读 多人点赞 2021-06-26 00:59:36
    点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达编辑丨极市平台引言目标检测领域发展至今已有二十余载,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益...
  • 目标检测综述

    千次阅读 2021-09-07 15:09:55
    为了进一步促进小目标检测的发展,本文对小目标检测算法进行了全面的总结,并对已有算法进行了归类、分析和比较。首先,对小目标进行了定义,并概述小目标检测所面临的挑战。然后,重点阐述从数据增强、多尺度学习、...
  • 2012年AlexNet模型在ImageNet数据集上取得了巨大成功,从此,深度学习技术开始进入黄金发展期。随后,深度学习在多个应用领域均大幅提升了性能指标,尤其在计算机视觉领域,超越SVM等一众传统机器学习方法。然而,...
  • MATLAB视频运动目标检测

    千次阅读 2021-08-25 11:54:51
    摘要视频运动目标检测与跟踪算法是计算机视觉领域的一个核心课题,也是智能视频监控系统的关键底层技术。它融合了图像处理、人工智能等领域的研究成果,已经广泛应用于安保监控、智能武器、视频会议、视频检索等各个...
  • 姿态估计是计算机视觉中的一项流行任务,比如真实的场景如何进行人体跌倒检测,如何对手语进行交流。 作为人工智能(AI)的一个领域,计算机视觉使机器能够以模仿人类视觉为目的来执行图像处理任务。 在传统的物体...
  • 目标检测算法评价指标之mAP

    千次阅读 2021-12-04 16:19:38
    随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械...
  • 本文继续以车辆识别为目标,继续改进方法以此提高车辆识别进准度,核心的内容包括:OpenCV级联分类器概念、创建自己的级联分类器以及使用级联分类器对车流进行识别
  • 1.常用指标 1)每个检测物体的分类准确度; 2)预测框与真实框的重合度(IOU):如果设定IOU的阈值为0.5,当一个预测框与一个真实框的IOU值大于该阈值时,被判定为真阳(TP),反之被判定为假阳(FP) 3)模型是否...
  • 3D目标检测之数据集

    千次阅读 2021-11-21 12:08:47
    Deep Learning based Monocular Depth Prediction: Datasets, Methods and Applications(这篇论文里有讲单目深度估计领域常用的数据集,跟单目3D目标检测数据集很多是重合的) 数据集网站: 公开数据集下载 | ...
  • 基于ShuffleNetv2-YOLOv4模型的目标检测

    千次阅读 2022-01-16 10:55:48
    近年来,深度学习理论及技术的快速发展,使得基于深度学习的目标检测算法取得了巨大进展,目标检测实时性、准确度得到了很大的提高。但是除了准确度外,计算复杂度也是目标检测要考虑的重要指标,过复杂的网络可能...
  • 这是作者网络安全自学教程...这篇文章将详细总结恶意代码检测技术,包括恶意代码检测的对象和策略、特征值检测技术、校验和检测技术、启发式扫描技术、虚拟机检测技术和主动防御技术。基础性文章,希望对您有所帮助~
  • 模态定位为某种类型的信息,...虽然单模态学习在如今已经取得了显著的进步,在图像单模态的目标检测,文字识别领域等实现了较高的准确率,但是在一些其他领域:例如视频检索、图像语义理解等方面,单模态难以进行处理。
  • 前言单阶段目标检测通常通过优化目标分类和定位两个子任务来实现,使用具有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位。本文提出了一种任务对齐的一阶段目标检测(TOOD),它以基于...
  • (自己写的,需要转载请联系作者,或者标明出处呀,欢迎加微信交流:wx604954) ...本文介绍了目前发展迅猛的深度学习方法在目标检测中的最新应用进展,然后介绍了基于深度学习的目标检测算法在医学图像领域的应...
  • 深度学习目标检测方法汇总

    千次阅读 2019-06-26 12:11:56
    目标检测简介  目标检测是计算机视觉的一个重要研究方向,是指从一个场景(或图片)中找到感兴趣的目标。任务大致分为三个流程: 从场景中提取候选区 从候选区提取特征 识别候选区的类别并对有效的候选框进行位置...
  • 目标检测:二维码检测方案

    千次阅读 2022-03-26 21:59:52
    Python微信订餐小程序课程视频 ...Python实战量化交易理财系统 ...一、序 移动互联网时代,我们的身边,无处不见的二维码,在商店买东西可以用微信或支付宝的付款码、在电影院可以...从技术的角度观察,很多场景下,二维码
  • 《深度学习》之 目标检测 最全详解 (一)

    万次阅读 多人点赞 2020-03-22 10:45:36
    目标检测 一.简介 目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理...
  • 动态视频目标检测和跟踪技术(入门)

    万次阅读 2016-10-18 21:24:16
    动态视频目标检测和跟踪技术 http://m.qingqingsk.com/ztnews/lvvozlzrztkzrqwqqlnrluqk.html 传统电视监控技术只能达到“千里眼”的作用,把远程的目标图像(原始数据)传送到监控中心,由监控人员根据目视...
  • 传统目标检测技术传统目标检测技术1、 帧间差分通过连续两帧相同位置像素点间的灰度差来确定目标移动。但只适用于静态背景和目标单一条件的目标检测。仅适用于无人机悬停状态下的目标检测。 2、 背景差分法 通过...
  • 光流法 光流是指图像中模式运动的... 反之,如果图像中的目标发生运动,由于目标和图像背景存在相对运动,致使运动目标与邻域背景的速度矢量出现差异,进而实现运动目标检测。 光流法的前提假设: (1)相邻帧之间
  • 论文:Visual-LiDAR based 3D Object ...论文中激光检测方法是在原工作基础上改进的,可阅读论文Dynamic Multi-LiDAR Based Multiple Object Detection and Tracking—sensors 内容 提出一种基于Lidar和camera融合的3D
  • 目标检测作为图像处理和计算机视觉领域中的经典课题,在交通监控、图像检索、人机交互等方面有着广泛的应用。它旨在一个静态图像(或动态视频)中检测出人们感兴趣的目标对象。传统的目标检测算法中特征提取和分类决策...
  • VDO-SLAM :一种动态目标感知的视觉SLAM系统 (VDO-SLAM :A Visual Dynamic Object-aware SLAM System) 论文地址:https://arxiv.org/pdf/2005.11052v2.pdf 代码: https://github.com/halajun/vdo_slam 摘要: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 75,224
精华内容 30,089
热门标签
关键字:

常用的动目标检测技术