精华内容
下载资源
问答
  • 多尺度特征融合

    千次阅读 2021-01-13 22:14:28
    多尺度特征融合------笔记 笔者想将尺度融合技术结合到自己的研究领域中,但是对尺度这一理论不太熟悉,整理下尺度相关概念。????开始攻克难题 1. 基本概念: ????1.1 何为特征: 每个物体,我们总可以用一些...

    多尺度特征融合------笔记

    笔者想将多尺度融合技术结合到自己的研究领域中,但是对多尺度这一理论不太熟悉,整理下多尺度相关概念。😉开始攻克难题

    1. 基本概念:

    💕1.1 何为特征:

    每个物体,我们总可以用一些词语或部件来描述它,比如人脸的特征:两个眼睛、一个鼻子和一个嘴巴。对于图像而言,我们需要计算机去理解图像,描述图像就需要计算机去取得图像的特征,对图像比较全面的描述即一个二维矩阵,矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像,抓住一些显著特征,这些特征要具有一些良好的性质,比如局部不变性。局部不变性一般包括两个方面:尺度不变性与旋转不变性。

    • 尺度不变性:人类在识别一个物体时,不管这个物体或远或近,都能对它进行正确的辨认,这就是所谓的尺度不变性。尺度空间理论经常与生物视觉关联,有人也称图像局部不变性特征为基于生物视觉的不变性方法。

    • 旋转不变性:当这个物体发生旋转时,我们照样可以正确地辨认它,这就是所谓的旋转不变性。

    💕1.2 局部不变特征:

    全局特征:从整个图像中抽取的特征。较多的运用在图像检索领域,如图像颜色直方图。

    局部特征:从图像的局部区域中抽取的特征(这个局部区域往往是图像中的一个像素及它周围的邻域)。

    💕1.3 尺度

    尺度可以说是感兴趣的区域大小。通俗来说,你拍摄一个目标,离得近就获得一个大尺度图像,离得远就获得小尺度图像。尺度不变性,一般是针对特征点(or兴趣点)检测算法而言,即算法对图像的尺度变化要具备一定的鲁棒性。

    💕1.4 语义信息

    语义信息,通俗的理解就是比如 人类能定义的一些特征。比如,图片里一个人的话,比如,眼睛,鼻子耳朵嘴巴啊,或者胳膊 腿,脸部肤色,皱纹等。也就是某个对象的一些局部特征,语义信息有高有低,

    2. 图像尺度空间理论

    当用一个机器视觉系统分析未知场景时,计算机没有办法预先知道图像中物体尺度,因此,我们需要同时考虑图像在多尺度下的描述,获知感兴趣物体的最佳尺度。

    所以在很多时候,我们会在将图像构建为一系列不同尺度的图像集,在不同的尺度中去检测我们感兴趣的特征。比如:在Harr特征检测人脸的时候,因为我们并不知道图像中人脸的尺寸,所以需要生成一个不同大小的图像组成的金字塔,扫描其中每一幅图像来寻找可能的人脸。

    3. 多尺度特征融合

    💕3.1 基本概念

    在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征。CNN卷积神经网络的层数的加深的过程,是特征提取从低层次到高层的语义特征的提取过程。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。
    另一种说法:
    高层网络的感受野比较大,可以理解为CNN从更加全局的角度对图像做特征提取,因此产生更加高层次的语义信息,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。高层的语义信息能够帮助我们准确的检测或分割出目标。因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。
    在这里插入图片描述
    上图就是一个典型的多尺度融合网络结构。下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度特征图(深层)分辨率信息不足不适合小目标,在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map,这也就是在进行分割和检测网络中如果进行多次的下采样操作很容易到底小目标的丢失。

    参考:
    多尺度特征融合
    多尺度特征的融合操作

    展开全文
  • 计算机视觉研究院专栏作者:Edison_G深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下...

    计算机视觉研究院专栏

    作者:Edison_G

    深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。

    公众号ID|ComputerVisionGzq

    学习群|扫码在主页获取加入方式

    论文获取|回复”MDFN“获取论文

    1

    前言

    目前深度学习用于目标检测已经习以为常。从SSD到Yolo系列,其中:

    • 深层网络的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);

    • 低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。

    高层的语义信息能够帮助我们准确的检测出目标。

    SSD框架

    ASPP网络

    Cascaded

    下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度特征图(深层)分辨率信息不足不适合小目标。在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。FPN中的处理在下面。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map。还有个原因是在深层图做下采样损失过多信息,小目标信息或许已经被忽略。

    2

    背 景

    Feature Extraction

    作为许多视觉和多媒体处理任务的基础步骤,特征提取和表示得到了广泛的研究,特别是在网络结构层面,这在深度学习领域引起了很多关注。更深或更广的网络放大了体系结构之间的差异,并在许多计算机视觉应用中充分发挥了提高特征提取能力的作用。skip-connection技术通过在网络的不同层级之间传播信息,缩短它们的连接,在一定程度上解决了梯度消失的问题,这激发了构建更深网络的热点研究,并获得了性能的提升。从5层的LeNet5到16层的VGGNet,再到1000层以上的ResNet,网络的深度急剧增加。ResNet-101显示了其在特征提取和表示方面的优势,尤其是在用作对象检测任务的基础网络时。许多研究人员试图用ResNet-101替换基础网络。 

    SSD在PASCAL VOC2007上使用Residual-101取得了更好的性能。RRC采用ResNet作为其预训练的基础网络,并通过提出的循环滚动卷积架构产生了具有竞争力的检测精度。然而,SSD通过将VGG-16替换为Residual-101,对于mAP仅获得1%的提升,而其检测速度从19 FPS下降到6.6 FPS,几乎下降了3倍。VGG网络在ImageNet Large Scale Visual Recognition Challenge(ILSVRC) 2014中获得第二名。它浅薄,只有16层,是另一个广泛使用的基础网络。它的优势在于提供了精度和运行速度之间的权衡。SSD通过将VGG-16作为特征提取器与端到端网络结构中提出的多目标检测器相结合,实现了最佳的总体性能。

    如上图所示,深度特征图上的多尺度感受野将激活对象的语义和上下文信息。红色、黄色、蓝色和绿色分量代表四种尺寸的过滤器,分别对应不同的对象表达。例如,红色的往往只对中间的红色车辆敏感,而黄色和蓝色的也可能覆盖周围的小型汽车,这是由于不同目标汽车之间相关性的语义表达。绿色的激活范围最大,它不仅可以检测所有车辆,还可以通过利用对象与其背景之间关系的语义描述来检测道路。这个提取各种语义信息的过程可以在深层实现,其中感受野能够覆盖更大的场景和深层产生的特征图,已经拥有语义表达的抽象能力。

    我们发现大多数可用的经典网络都是强大的足够的特征提取,并能够提供必要的细节特征。受这些观察的启发,研究者采用迁移学习模型,并在靠近网络顶部的深层设计了一个高效的多尺度特征提取单元。提取的深层特征信息直接馈送到预测层。

    研究者提出了四个inception模块,并在四个连续的深层中incept它们,用于提取上下文信息。这些模块显著扩展了各种特征表达的能力,由此实现了基于深度特征学习的多尺度目标检测器。

    Attention to Deep Features

    基于随机深度的ResNet通过随机dropping 层来改进深度CNN的训练,这凸显了传播过程中存在大量冗余。 有研究者实验证明,ResNet-101中的大多数梯度仅来自10到34层的深度。另一方面,基于小物体检测依赖于较早层产生的细节信息的论点,许多方法从不同的浅层中提取多尺度信息。虽然实验表明语义特征和目标的上下文也有助于小目标检测以及遮挡检测。DSSD采用反卷积层和skip connections来注入额外的上下文,从而在学习候选区域和池化特征之前增加特征图分辨率。Mask R-CNN添加了从目标的更精细空间布局中提取的掩码输出。它由深度卷积产生的小特征图提供的像素到像素对应关系解决。

    3

    新框架

    假设:

    • 这些特征图应该能够提供更加精确的细节特征,尤其是对于刚开始的浅层较;

    • 转换特征图的功能应扩展到足够深的层,以便可以将目标的高级抽象语义信息构建到特征图中;

    • 特征图应包含适当的上下文信息,以便可以准确推断出被遮挡的目标,小目标,模糊或重叠的目标并对其进行稳健的定位。

    因此,浅层和深层的特征对于目标识别和定位起着必不可少的作用。为了有效地利用检测到的特征信息,应考虑另一约束条件,以防止特征被改变或覆盖。

    今天内容暂时到这里,下一期我们将带领大家一起对新框架详细分析!

    下面我通过一小段视频展示下多尺度深度特征学习的效果,主要基于单分支的YoloV3-Tiny网络,效果如下:

    小型的篮球被检测到

    科比投出的篮球被检测到

    观众席的观众的领带被检测到

    简单训练后,不同尺寸都是可以检测到,部分错检是因为没有该类型数据,被错检为相似目标

    © THE END 

    转载请联系本公众号获得授权

    计算机视觉研究院学习群等你加入!

    计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

    扫码关注

    计算机视觉研究院

    公众号ID|ComputerVisionGzq

    学习群|扫码在主页获取加入方式

     往期推荐 

    ????

    展开全文
  • 多尺度特征的提取

    千次阅读 2021-03-26 09:11:51
    1、图像金字塔 将图片进行不同尺度的缩放,得到图像金字塔,然后对每层图片提取不同尺度特征,...2、多尺度的卷积层 conv-3的低网络层,有更小的感受野,获取的是低层信息,对小目标的提取能力更好;而高层如conv

    1、图像金字塔

    将图片进行不同尺度的缩放,得到图像金字塔,然后对每层图片提取不同尺度的特征,得到特征图。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。
    特点:不同尺度的特征都可以包含很丰富的语义信息,精度高 ,但速度慢。

    2、多尺度的卷积层

    conv-3的低网络层,有更小的感受野,获取的是低层信息,对小目标的提取能力更好;而高层如conv-5,获取的是高层语义信息,对于大目标的检测更加准确。对于不同的输出层设计不同尺度的目标检测器,完成多尺度下的检测问题。卷积网络不同层得到的特征特点的不同,对不同层的特征采用不同的利用方式。

    3、SSD

    4、U-Net

    6、FPN(特征金字塔)

    FPN网络最开始是为目标检测而设计的,在之前的目标检测网络中通常是使用顶层特征做预测,但是低层语义信息少,对小目标检测不准确;后来有网络采用多尺度信息融合的方式,用融合后的特征做预测。FPN的特殊之处在于预测是在不同特征层独立进行的。

    (a)图像金字塔,即将图像做成不同的scale,然后不同scale的图像生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。有些算法会在测试时候采用图像金字塔。
    (b)像SPP net,Fast RCNN,Faster RCNN是采用这种方式,即仅采用网络最后一层的特征。
    (c)像SSD(Single Shot Detector)采用这种多尺度特征融合的方式,没有上采样过程,即从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征(在SSD中,最低层的特征是VGG网络的conv4_3),而在作者看来足够低层的特征对于检测小物体是很有帮助的。
    (d)本文作者是采用这种方式,顶层特征通过上采样和低层特征做融合,而且每层都是独立预测的。

     

    展开全文
  • 本文简要回顾了尺度物体检测算法的一些工作,然后提出了一种基于多尺度特征图的特征增强和融合方法,提高了MS COCO上小物体的检测精度。 一、介绍 目标检测是计算机视觉领域的核心问题之一。它旨在找到图像中...

    摘要:

           近年来,深度卷积神经网络在计算机视觉领域的目标识别和目标检测任务上取得了突破性进展,在准确率和速度上都取得了不错的成绩。但是在目标检测领域,小物体的检测还是比较困难的,在通用数据集MS COCO上的准确率很低。本文简要回顾了多尺度物体检测算法的一些工作,然后提出了一种基于多尺度特征图的特征增强和融合方法,提高了MS COCO上小物体的检测精度。

    一、介绍

           目标检测是计算机视觉领域的核心问题之一。它旨在找到图像中所有感兴趣的对象并确定它们的位置和类别。特征提取是目标检测的重要步骤。基于深度学习的方法是当今的主流。它使用卷积神经网络来提取图像的深层特征信息,然后基于它进行分类等其他操作。

           基于深度学习的经典检测算法都是对卷积神经网络提取的顶级特征图进行分类和预测,使得这些算法对多尺度物体,尤其是小物体没有很强的特征表达能力。卷积神经网络架构中的下采样形成了一个自然的特征金字塔,因此我们可以获得不同尺度的特征图。这些多尺度特征图的有效组合可以大大提高检测性能。

           在SSD中,提出深层的小尺度特征图语义信息强,适用于分类任务。然而,高维语义信息不能提供足够的位置信息,容易导致检测性能不佳。大尺度特征图具有丰富的详细和强大的定位信息。如果我们想提高小物体的检测性能,不能只使用顶层的特征图。从某种意义上说,考虑多尺度特征图可能是解决方案。

          在本文中,我们提出了一种充分利用深度卷积网络生成的多尺度特征图的方法。首先,在特征提取网络生成的自然金字塔上,进行多次下采样和上采样,使金字塔中包含的特征信息尽可能丰富。其次,对这些增强的特征图进行上下文语义信息融合,以便它们可以包含多个尺度的信息。使用所提出的方法后,我们的算法将公共数据集 MS COCO 上的小对象的 mAP 提高了约 1.7%。

          本文的其余部分安排如下。首先,在第二部分,我们简要介绍了小物体检测领域的相关工作,以及多尺度检测中的相关算法。其次,在第三部分,我们受现有多尺度检测算法的启发,设计了一种新的特征融合方法。接下来,在第四部分,我们对设计的方法进行了实验和评估。最后,在第五部分,我们简要总结了我们所做的工作。

    二、相关工作

    2.1、Single Shot Multi-Box Detector Series(SSD)系列

           与现有的检测算法对单尺度特征图进行预测操作相比,SSD采用多尺度检测策略,复用不同层前向传播产生的多尺度特征图,因此没有额外的计算开销。它在特征图金字塔上构造多个检测头,并为回归检测分配相应尺度的默认框。它在不同尺度的不同特征图上检测物体,在一定程度上抵抗物体尺寸的变化,为网络赋予更多的鲁棒性。SSD结构虽然没有利用多尺度之间特征信息的流动,但开始探索不同尺度信息的意义,并通过多尺度、多层次的检测,赋予这个意义一个明确的任务,以提高网络的规模。为了避免使用低级特征图,SSD从上到下构建了一个特征金字塔,并添加了一些新层。然而,那些丢失的高分辨率特征图是小物体识别所必需的。

           DSSD 提出了一种自顶向下的网络结构,它使用反卷积代替传统的双线性插值上采样。它在预测阶段引入残差单元,优化候选框回归和分类任务输入的特征图,与SSD相比,大大提高了小物体和密集物体的检测精度。

           RSSD 改进了SSD算法的特征融合方法。它通过对原始网络进行前向池化和反向反卷积,极大地提高了特征丰富度。虽然添加了这些方法,但速度比SSD慢,准确度有所提高。它还解决了SSD为同一个物体绘制多个检测边界框的问题,增加了特征图的数量,这对小物体检测性能也有帮助。

    2.2、特征金字塔网络系列

           图像金字塔是图像的一种多尺度表达。解释具有多种分辨率的图像是一种有效但简单的概念结构。其结构如图1所示。图像的金字塔是一系列的图像,其分辨率以金字塔的形状逐渐降低,并且源自同一原始图像。它是通过逐步降采样得到的,直到达到某个终止条件才停止采样。我们将图像层比作金字塔。级别越高,图像越小,分辨率越低。

           如图2所示,FPN 采用的策略是通过自上而下的路径和水平连接将低分辨率强语义特征图和高分辨率弱语义特征图结合起来。该方法同时使用高级语义信息和低级位置信息,这在小物体检测中起着关键作用。

           NAS-FPN 希望通过自动学习生成最合适的多尺度特征表示。其思想是设计一个合理的RNN搜索空间,在搜索空间中任意融合基本的多尺度特征图,将融合结果加入到原空间进行下一次迭代搜索,直到找到检测性能更好的特征金字塔结构,其中检测将在此基础上进行。该方法还提高了小物体的检测性能。

    2.3、从其他角度思考

    数据增强:深度学习的性能在某种意义上依赖于大量的训练数据,小目标检测的性能也可以通过增加训练集中小目标样本的类别和数量来提高。论文Augmentation for small object detection中提出了两种简单直接的方法:一种是使用过采样策略;另一个是解决同一张图片中小物体数量少的问题。它使用分割掩码来查找小对象,然后复制和粘贴以增加它们的数量。当然,这个过程也加入了一些旋转和缩放,注意不要遮挡其他物体。

    特征生成: Perceptual GAN 算法利用GAN对小物体生成超分辨率特征,然后将这些超分辨率特征叠加在特征图上的原始小物体上,增强小物体特征的表达,提高检测效果小物件的表现。

    模型训练:机器学习有一个重点。模型预训练的分布应该尽可能接近测试输入的分布。SNIP 训练的方法是在训练阶段只使用合适大小的物体样本,其anchor的尺度和ground truth的尺度相近,来训练检测器。尺度过小或过大的锚将被丢弃。在预测阶段输入多尺度图像。所以总有一个合适的anchor size,选择最合适的尺度进行预测。

    感受野: Trident Networks 的思想是基于检测特征图的感受野应该与被检测物体的尺度匹配,从而设计不同的感受野分支来学习不同尺度的物体。由于没有使用FPN的结构,使用中尺度预测时,大尺度检测精度不会大幅下降,计算量也小很多。此外,由于参数共享,即使是单尺度预测精度也不会像 FPN 那样明显下降。

    IOU 阈值: Cascade R-CNN 主要关注阈值问题。因为训练过程中需要正负样本,判断依据很大程度上取决于阈值。IOU阈值过大会造成正负样本数量不匹配,过低会降低质量。该网络加入了多阶段结构,在训练过程中不断提高阈值,保证数量平衡,提升质量。

    三、方法

    3.1、特征增强

           特征提取网络以 VGGNet 为例。原始的 Faster R-CNN 目标检测网络结构将特征金字塔的最后一层发送到 RPN 进行训练。如图3(a)所示,是Original VGGNet的骨干网络。它使用 5 段卷积提取特征信息,生成自然特征金字塔。每经过一段卷积后,进行下采样,特征图的大小发生变化。是原来的一半,同时提取的图像特征更抽象。然而,这种网络结构只使用了最高级别的语义特征。虽然信息丰富,但是在特征提取的过程中,小物体的表达会被弱化四倍。

           图3(b)显示了只有池化特征增强的网络结构,图3(c)显示了只有反卷积的网络结构。它们在一定程度上增强了特征,增强了特征信息的丰富性,也增加了特征图中的通道数。我们根据RSSD中提到的rainbow concatenation方法将两者叠加,得到图3(d)中的网络结构。与原始图3(a)中的骨干网络相比,可以看出池化和反卷积后得到的网络特征信息得到了极大的增强。

    3.2、特征融合

           经过上面对多尺度问题的讨论,参考FPN中提出的多尺度信息融合的结果,检测性能会有很大的提升。本文基于Faster R-CNN检测算法,设计了一种提高小物体检测效果的方法。其网络结构示意图如图4所示。

           首先,从上一节中,我们得到了具有增强特征的骨干网络结构,并将其特征层记录为conv1~conv5。之后,我们将对这个新的骨干网络进行特征融合操作。

           其次,我们在新的 VGGNet 的最后四个特征层上进行通道转换,以增加特征层中的通道数。经过处理后,conv2~conv5分别生成了C2~C5的四个特征层。

           最后,高层特征层将被上采样并与低层特征层融合。我们将最后一个特征层表示为 P5,它可以直接从 C5 中获得。然后P5进行上采样后与C4特征融合,得到的特征层记为P4。P4上采样后与C3融合得到P3。根据类似的操作也可以得到P2。经过一系列的上采样和融合,我们有了最终的网络结构,然后我们就可以将P2~P5发送到RPN层进行训练。

    3.3、尺寸匹配

           在池化、反卷积和上采样的过程中,特征图的大小是本文最关心的问题。在池化过程中,使用了与原始VGGNet相同的最大池化方法,因此在后续的特征层融合中没有出现问题。但是,上采样过程需要非常小心。池化策略减少2倍并向上取整,即原始特征图大小6×6和5×5会得到相同的结果,即3×3的特征图。但是在上采样时,简单地将结果加倍只会得到 6×6 的特征图。如果原始特征图大小为5×5,在特征融合时会遇到大小不匹配的问题,无法进行。

           为了解决这个问题,我们使用了一种在模型上采样期间动态计算并指定输出大小的策略。这样,在每张图片的每次迭代中,每次上采样后的输出都可以完全匹配,在融合特征图层的过程中不会出现尺寸不匹配的问题。

           本文得到的模型经过特征增强和特征融合后,结合了原始VGGNet网络的上下文信息,大大提高了特征图的分辨率。可以获得的小物体信息比原来的网络还多。性能甚至更好。

    四、实验

           为了评估所提出方法的性能,我们选择了以 VGGNet 为骨干网络的 Faster R-CNN 目标检测算法,并在 MS COCO 2014 数据集上进行了实验。MS COCO 2014 数据集由80个对象类组成,每个图像都带有标注的地面真实位置和相应的类信息.训练集为 coco_2014_train + coco_2014_valminusminival,测试集为 coco_2014_minival。我们在 TensorFlow 深度学习框架下在硬件平台 NVIDIA GTX TITAN X GPU 上进行了实验。

           在我们的训练过程中发现,增强的网络特征层在多次池化、反卷积和上采样过程中会消耗大量时间,并且前两个特征层的网络参数通常设置为不参与训练,并且与这两个特征层的融合意义不大。理想情况下,传入 RPN 网络的最佳选择是 P2~P5 特征层,但网络训练因此会变得特别慢。因此,最后只选择了 P4 送到 RPN 网络进行训练。P4 比原始图像大小小八分之一,并且包含足够的上下文信息,这些信息都在可接受的范围内。

           经过训练,我们得到了 490 k 步的模型结果。同时,我们发现随着训练时期的增加,模型继续获得更好的结果。由于时间和资源限制,训练在 490k 步时停止。此时网络已经收敛。

           从表1可以看出,增强型Faster R-CNN物体检测算法成功提升了小物体检测性能。准确率从 11.9% 提高到 13.6%,从表2可以看出,与原始网络相比,速度没有明显损失。

           本文通过前向卷积和池化提取高层语义信息,这对分类非常重要。然后,对提取的高层特征进行逐层上采样和特征融合,导致特征图的放大和计算量的不明显增加,从而获得更多关于小物体的信息,这使模型对他们更有效。

           在 coco_2014_minival 数据集上测试模型后,我们对一些图像进行了一些可视化工作。图5显示了增强模型在一些包含小物体的图像上的可视化结果。

           从图5(a)可以看出,原始模型在检测像素模糊的物体时,无法正确识别和检测特定信息,而增强模型对像素模糊的检测效果更好。在小物体检测过程中,增强模型可以比原模型识别出更多的小物体,但不能识别出所有的物体。初步估计是小物体之间的距离很小,边界相互重叠,导致模型难以识别。

           从​​​​​​​图5(b)可以看出,当图像包含太多小物体并且它们彼此靠近时,原始模型无法正确识别它们。虽然增强模型识别出它们,但它们被视为一个整体,这可能是由于数量众多且边界紧密。这两个问题导致模型在整体池化后错误识别小对象。对于具有高速和像素模糊的小物体,例如​​​​​​​图5(b)第三行中的棒球,增强模型在检测没有干扰和像素模糊的小物体时具有很高的鲁棒性。

           在实验过程中,为了检测到更多小物体的信息,让增强模型对小物体更加敏感,本文还修改了RPN生成的anchor的尺寸,使其尺寸更适合小物体。但是结果并不理想,因为anchors的减少使得模型对小物体真的很敏感,而原来的中大物体的检测结果变得很差,整体准确率像FPN一样下降了。因此,训练一个适合各种尺度物体的模型仍然是一项需要进一步研究的工作。

    五、结论

           本文提出了一种改进的小物体检测方法,该方法增强了多尺度特征并融合了它们之间的上下文语义信息。在通用数据集 MS COCO 上的测试表明,该方法确实可以以大致相同的速度提高小物体检测的准确性。

           小目标检测准确率低是公认的问题,主要是因为网络多次池化后小目标的信息会大量丢失,但它也必须具有高级特征的语义信息才能进行分类,这就造成了矛盾在检测过程中。通过池化获得高级语义特征和上采样来提高小对象特征图的分辨率是一个不错的想法,也是一个值得进一步研究的方向。

    展开全文
  • 计算机视觉研究院专栏作者:Edison_G深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下...
  • 语义分割中的多尺度特征设计 图像语义的概念 图像的语义可分为三层,视觉层,对象层和概念层。以下图Fig1为例,视觉层通常包含了图像的底层特征语义信息,例如图像的颜色,车辆和树的轮廓,纹理信息等等,对象层可以...
  • 如下图所示: 我们的第二个观察是关于输出特征与输入中高级深度线索的数量和分布之间的关系。网络感受野尺寸主要依赖于网络结构以及训练分辨率。由于单目深度估计依赖于上下文线索,当图像中的这些线索比感受野更远...
  • 用于图像修复的多尺度特征注意力金字塔:Pyramid Attention Networks for Image Restoration 本文中作者提出了一种新的非局部金字塔注意力的通用模块用于捕获远程依赖关系,提出的注意力基于传统的non-local操作,...
  • 最近论文快deadline了,一直没空更新…今天复习一下多尺度特征融合的常用模型。 FPN 特征金字塔 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.03144 思路: 底层的...
  • Computational Analysis of Sound Scenes and Events 时的笔记,主要记录了音频信号中,特征提取时对多尺度特征的提取。本文内容基于文章 Fast Filter Transforms for Image Processing, Burt P.J., 1980. 主要介绍...
  • 1.问题阐述 语义分割的目的是给每一个像素进行正确的分类,这个定义提供了一种从分类视角看待问题的思路,但不能很好的阐述语义分割所面临的关键问题。...但更的论文是通过融合多尺度特征来保证在
  • FPN-多尺度特征聚合

    2021-08-30 11:17:08
    看上图中的(d)就可以看出FPN的基本运行原理了,前向过程通过下采样降低分辨率,然后再进行上采样,过程中融合来自上游高分辨率的feature,得到增强后的featuremap,这样一个优点在于低分辨率的featuremap更的...
  • 针对目前红外小目标检测算法在复杂背景下检测准确率低,虚警率高等缺点,提出一种基于多尺度特征融合的端到端红外小目标检测模型**(multi-scale feature fusion single shot multibox detecto,MFSSD)。...
  • 图像金字塔是图像中多尺度表达的一种,最主要用于图像的分割,是一种以分辨率来解释图像的有效但概念简单的结构。图像金字塔最初用于机器视觉和图像压缩,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步...
  • 在本文中,作者提出了一种基于一阶段的全卷积目标检测网络的微光增强和多尺度特征提取缺陷检测网络 (LE-MSFE-DDNet) 来构建模型。 2.创新点   对于表面缺陷检测。论文工作的主要贡献如下: (1)为了使模型对光照影响...
  • 多尺度”目标检测问题

    千次阅读 2021-10-28 10:45:22
    一、“多尺度”目标检测问题简介 在目标检测任务中,被测目标的大小经常是不固定的,自动驾驶相关检测任务可能要同时检测大卡车与小狗;工业质检相关检测任务可能要同时检测布料的大面积撕裂与小穿孔;医疗病灶检测...
  •   论文中的创新点主要体现在网络结构的创新上,作者提出了一种基于SSD多尺度特征融合(Multi-scale Feature Fusion Single Shot Detector,MFF-SSD)的目标检测模型。将高层特征与低层特征进行融合,并提出了融合...
  • 点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达本文授权转载自:我辈怎是蓬篙人(系粉丝投稿)M2TR: 首个模态多尺度TransformerCNN?是模仿也是超越文章...
  • Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 2015年 Abstract 现有的(传统的) CNNs 由于有全连接层...无论输入图像的尺寸是多少,SPP-Net 能够产生一个固定长度的特征向量,且
  • 有关多尺度

    2021-08-16 10:41:20
    多尺度学习可以注意一下) 小目标与常规目标相比可利用的像素较少, 难以提取到较好的特征, 而且随着网络层数的增加, 小目标的特征信息与位置信息也逐渐丢失, 难以被网络检测。这些特性导致小目标同时需要深层...
  • 多尺度信息的融合是检测和分割中解决小目标和边缘精度的重要方法,广泛应用于各个检测和分割的工作当中。本文以文章为对象,梳理了不同文章用到的多尺度信息融合的方法,从而有一个比较显式的对比。 ...
  • Method 上图给出了ResT的架构示意图,它具有与ResNet相似的结构方案,比如采用stem模块提取底层特征,后接四个stage捕获多尺度特征。每个stage包含三个成分:一个块嵌入模块,一个位置编码模块以及L个高效...
  • 尺度模型架构1.1 尺度输入网络1.2 多尺度特征融合网络1.3 多尺度特征预测融合 1.尺度模型架构 卷积神经网络通过逐层抽象的方式来提取目标的特征,其中一个重要的概念就是感受野。如果感受野太小,则只能观察到...
  • YOLOv3的多尺度检测

    千次阅读 2021-03-15 11:11:20
    YOLOv3通过聚类的方法得到9种尺度的anchor,将9种尺度的anchor box均匀的分配给3种尺度特征图。实现了多尺度检测。 YOLOv3-Tiny 在YOLOv3的基础上去掉了一些特征层,只保留了2个独立预测分支,如下图所示。 ...
  • 多尺度注意力网络(DMSANet)在图像分类、目标检测和实例分割上均适用,性能优于EPSANet、FcaNet和SENet等网络 摘要 注意机制最近在计算机视觉领域很受欢迎。为了提高网络的性能,已经做了许多工作,尽管它几乎...
  • 科技导报2015,33(10)多尺度材料计算方法多尺度材料计算方法1,2 1 3 2 4 5 2施思齐 ,徐积维 ,崔艳华 ,鲁晓刚 ,欧阳楚英 ,张艳姝 ,张文清1.上海大学材料科学与工程学院,上海2004442.上海大学材料基因组工程...
  • 提出了一种加权的双向特征金字塔网络,它允许简单和快速的多尺度特征融合 提出了一种复合缩放方法,可以同时统一缩放所有主干、特征网络和bbx/类预测网络的分辨率、深度和宽度 1.引言 在融合不同输入特征的时候,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 79,584
精华内容 31,833
关键字:

多尺度特征

友情链接: FS2410_Jlink.rar