精华内容
下载资源
问答
  • 基于多尺度特征融合网络的交通标志检测_刘胜.pdf
  • 在本文中,我们提出了一种用于单图像SR的压缩多尺度特征融合(MSFF)网络网络中使用了个MSFF模块来提取不同比例的图像特征,这使我们能够捕获图像的更完整的结构和上下文信息,从而获得更好的SR质量。 此外,...
  • 多尺度特征融合

    万次阅读 2019-05-11 04:03:45
    多尺度特征融合 应用:人体姿态估计领域,对于人体关键点检测。 对比一般的目标检测backbone,比如Vgg网络的特点是层次的提取特征,称为feature map。CNN卷积神经网络的层数的加深的过程,是特征提取从低层次到高层...

    多尺度特征融合

    应用:人体姿态估计领域,对于人体关键点检测。

    对比一般的目标检测backbone,比如Vgg网络的特点是多层次的提取特征,称为feature map。CNN卷积神经网络的层数的加深的过程,是特征提取从低层次到高层的语义特征的提取过程。比如对于人脸特征的提取,网络的低层提取的特征只是一些轮廓特征,随着网络的深入提取的特征可能是眼睛,鼻子等更高的语义特征,到最后网络到达最深的层是可能就提取到了整张人脸轮廓的特征了。这样网络的最后一层就可以接入一个分类器进行检测识别。

    但是随着网络的加深,每一层都会丢失一些信息,到最后一层就会丢掉比较多的信息。

    为了解决这个问题,有了特征融合的解决方案。基本思想是认为在该层网络进行卷积操作之前,将上一层的特征图加上该层的特征图,这样就可以保留上一层的一些信息,减少该层信息的丢失。

    应用:多尺度特征融合:

    目标检测领域提高小目标的检测精度:图片的一些小目标在进行特征提取时,图片分辨率会越来越小,到最后小目标的特征信息可能就会丢失,从而对小目标的检测精度就不好。FPN

    人体姿态估计领域:提高关键点检测的精度:对于关键点检测中是检测人体的不同部分,并不是人体各个部分的特征都集中在最后一层特征图上,不同部分的特征可能会分布到不同尺度的特征图上,如果只是通过最后一层的特征图来进行关键点检测,会导致比较差的结果。Hourglass Network

    展开全文
  • 多尺度特征融合的对抗神经网络人群计数算法.pdf
  • 多尺度特征融合全卷积神经网络脑肿瘤MR图像分割.pdf
  • 针对全卷积神经网络多次下采样操作导致的道路边缘细节信息损失和道路提取不准确的问题,本文提出了多尺度特征融合的膨胀卷积残差网络高分一号影像道路提取方法。首先,通过目视解译的方法制作大量的道路提取标签数据;...
  • 提出了一种基于多尺度特征融合的细粒度图像分类方法。通过运用特征金字塔结构对不同层次的特征进行尺度变换,再进行信息融合;之后筛选其中包含细节特征最多的前三个区域图,将其与图像的全局特征共同作用以判断图片...
  • 基于深度学习的目标检测器RetinaNet和Libra RetinaNet均是使用特征金字塔网络融合多尺度特征,但上述两个检测器存在特征融合不充分的问题。鉴于此,提出一种多尺度特征融合算法。该算法是在Libra RetinaNet的基础上...
  • 深度特征融合---高低层(多尺度特征融合

    万次阅读 多人点赞 2019-03-09 23:00:07
    在很工作中,融合不同尺度特征是提高分割性能的一个重要手段。低层特征分辨率更高,包含更位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更。高层特征具有更强的语义信息,但是分辨率很低,对...

    概述

    基本概念

    在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。
    很多工作通过融合多层来提升检测和分割的性能,按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。

    早融合(Early fusion): 先融合多层的特征,然后在融合后的特征上训练预测器(只在完全融合之后,才统一进行检测)。这类方法也被称为skip connection,即采用concat、add操作。这一思路的代表是Inside-Outside Net(ION)和HyperNet。 两个经典的特征融合方法:
    (1)concat:系列特征融合,直接将两个特征进行连接。两个输入特征x和y的维数若为p和q,输出特征z的维数为p+q;
    (2)add:并行策略[36],将这两个特征向量组合成复向量,对于输入特征x和y,z = x + iy,其中i是虚数单位。

    晚融合(Late fusion):通过结合不同层的检测结果改进检测性能(尚未完成最终的融合之前,在部分融合的层上就开始进行检测,会有多层的检测,最终将多个检测结果进行融合)。这一类研究思路的代表有两种:
    (1)feature不融合,多尺度的feture分别进行预测,然后对预测结果进行综合,如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
    (2)feature进行金字塔融合,融合后进行预测,如Feature Pyramid Network(FPN)等。

    DenseASPP for Semantic Segmentation in Street Scenes
    语义分割–(DenseASPP )DenseASPP for Semantic Segmentation in Street Scenes

    典型方法概述

    在本文中,我们介绍了多篇文章,但归纳起来共讨论了4类方法:
    (1)早融合:用经典的特征融合方法:在现有的网络(如VGG19)中,用concat或add融合 其中的某几层;

    • FCN、Hypercolumns—>add
    • Inside-Outside Net(ION)、 ParseNet 、HyperNet—>concat
    • 变种:用DCA特征融合方法代替concat和add操作;

    (2)晚融合:
    (2.1)采用类似特征金字塔网络(FPN)的思想,对特征融合后进行预测。 (FPN一般用于目标检测,提高小目标检测能力) 三个变种:

    • YOLO2的方法,只在金字塔的top-down路径的最后一层进行预测,此外还有 U-Net [31] and SharpMask for segmentation, Recombinator networks for face detection, and Stacked Hourglass networks for keypoint estimation.
    • YOLO3的方法,在金字塔的每一层都进行预测
    • FSSD的方法,对 FPN进行细微改造

    (2.2)feature不融合,多尺度的feture分别进行预测,然后对预测结果进行综合,如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)

    (3)用一个具有高低特征融合能力的网络替代普通的网络,如Densenet;
    (4)不进行高低层特征融合,而是在高层特征预测的基础上,再用底层特征进行预测结果的 调整

    相关工作:多尺度模型设计

    【AI不惑境】深度学习中的多尺度模型设计

    ===========================================================================================

    Deep Feature Fusion for VHR(高分辨率图像) Remote Sensing Scene Classification(DCA特征融合方法)

    https://blog.csdn.net/snail_crawling/article/details/84568071
    特征融合的目的,是把从图像中提取的特征,合并成一个比输入特征更具有判别能力的特征。如何正确融合特征是一个难题。两个经典的特征融合方法

    (1)concat:系列特征融合[35],直接将两个特征进行连接。两个输入特征x和y的维数若为p和q,输出特征z的维数为p+q;
    (2)add:并行策略[36],[37],将这两个特征向量组合成复向量,对于输入特征x和y,z = x + iy,其中i是虚数单位。

    孙等人[38]引入典型相关分析canonical correlation analysis (CCA) 来融合特征。基于CCA的融合方法使用两个输入特征间的相关关系,计算两种变换,变换后的特征比输入的两个特征集有更高的相关性 。
    CCA的主要不足,在于忽略了数据集中类结构间的关系。我们想要最大化特征集之间的相关性,所以将每组特征中的类分开。
    最近,[44]解决了CCA的弱点,引入了DCA。DCA最大化两个特征集中对应特征的相关关系,同时最大化不同类之间的差异
    在这里插入图片描述

    基于神经网络的目标检测论文之目标检测方法:改进的SSD目标检测算法(DensNet)

    我们的改进是使用DenseNet代替原始SSD结构中的VGG,以提高目标检测准确性。图4-9显示了以DenseNet为基础网络的SSD。
    改进后的SSD网络对小物体比较敏感,能够对小物体产生很好的拟合。SSD中小物体检测的弱点可以通过所提出的模型来解决,并且对于具有独特上下文的类来说,性能更好。
    在这里插入图片描述
    在这里插入图片描述

    FPN(feature pyramid networks)

    https://blog.csdn.net/wangdongwei0/article/details/83140839
    https://blog.csdn.net/WZZ18191171661/article/details/79494534

    特征金字塔是识别不同尺度的目标时常用的结构,但是特征金字塔需要较大的计算量和显存,所以最近研发的一些探测器都不再使用这种结构。
    作者开发出的一种构建特征金字塔的新方法,可以减少额外的对计算量和显存的消耗
    使用FPN作为backbone,Faster RCNN的精度进一步提升(因为提取的特征更加丰富),速度为6fps on a GPU
    最近在coco和imagenet上取得靠前名次的网络都采用了多尺度的方法。

    在这里插入图片描述
    在这里插入图片描述

    YOLOv3——引入:FPN+多尺度检测 (目标检测)(one-stage)(深度学习)(CVPR 2018)

    https://blog.csdn.net/Gentleman_Qin/article/details/84350496
    在这里插入图片描述
    YOLOv2网络结构中有一个特殊的转换层(Passthrough Layer),假设最后提取的特征图的大小是1313,转换层的作用就是将前面的2626的特征图和本层的1313的特征图进行堆积(扩充特征维数据量),而后进行融合,再用融合后的特征图进行检测。这么做是为了加强算法对小目标检测的精确度。为达更好效果,YOLOv3将这一思想进行了加强和改进。
    **YOLO v3采用(类似FPN)上采样(Upsample)和融合做法,融合了3个尺度(13
    13、2626和5252),在多个尺度的融合特征图上分别独立做检测**,最终对于小目标的检测效果提升明显。(有些算法采用多尺度特征融合的方式,但是一般是采用融合后的单一特征图做预测,比如YOLOv2,FPN不一样的地方在于其预测是在不同特征层进行的。)
    在这里插入图片描述

    融合特征的SSD:对小目标的快速检测

    FSSD: Feature Fusion Single Shot Multibox Detector
    https://blog.csdn.net/wangxujin666/article/details/83065261
    https://blog.csdn.net/Dlyldxwl/article/details/79324944
    本文是以SSD为基底进行“改造”的一篇文章。SSD是从网络的不同层中抽取不同scale的feature直接做predict,所以没有充分融合不同scale的feature。后续有提出DSSD,RSSD等改进方法,但是因为模型的complexity导致速度变慢很多。**本文借鉴了FPN的思想,重构了一组pyramid feature map,**使得算法的精度有了明显的提升,速度也没有太降。先看一张图直观感受一下FSSD对比其它算法的效果。

    Approach
    对比下图中几种结构:
    在这里插入图片描述
    (a)中棕色的block之间没有联系,所以是使用不同scale的图片来生成不同scale的feature map进行predict,这是最不高效的一种方法;
    (b)代表faster rcnn之类的two-stage算法,利用某一个scale的feature map来生成多scale的anchors去检测multi-scale objects;
    ©是典型的Top-Down结构,FPN为代表网络。该结构在此不做赘述,有不清楚的移步这里。DSSD也是该网络结构的应用;
    (d)是SSD的结构代表图,从网络不同层抽取不同scale的feature做预测,这种方式不会增加额外的计算量,但是各个scale之间没有联系;
    (e)是FSSD的结构图,就是把网络中某些feature调整为同一szie再 contact,得到一个像素层,以此层为base layer来生成pyramid feature map,作者称之为Feature Fusion Module。

    Feature Fusion Module

    下面解释一下Feature Fusion Module。

    作者用一组公式表示整个过程:
    在这里插入图片描述
    对公式的字母含义进行说明:

    (1)Xi 是前置网络中希望融合的feature map,作者在文中说明了size小于10的feature map能合并的信息太少了,因此不做考虑,此外将conv6-2的stride设为1,这样conv7-2的size就是10了(给出FSSD的网络结构链接),所以选择 conv4-3 (38*38) ,fc7 , conv7-2输出的feature map来进行融合(为什么非用7-2,难道原始s=2的6-2用起来效果很差?作者没有说明)。至于为什么不用conv3-3的特征,可以对比Tab 2的2,3行看出;
    (2)Ti 表示对feature map进行降采样或者上采样方法的选择,目的让其scale一致。FSSD中均采用billnear将fc7 , conv7-2的scale统一为38;
    (3)φf 是选择对scale一致的feature map进行Contact还是Element-wise sum。目的是融合feature map生成一个scale的feature,FSSD应用了concact,可对比Tab 2的2,7两行看出;
    (4)**φp是如何利用得到的feature重构一组predict layer,也即Pyramid feature maps,**作者实验了Fig 3中的三种结构,其中棕色的block用来做predict,第一个结构使用fusion feature map作为第一层,**第二个是fusion feature map接了个33卷积后作为第一层,**最后一个结构是对于每一个predict层都先用11卷积来降低计算量,也就是bottleneck layer。从Tab 1可以看出中间的效果最好。
    在这里插入图片描述

    利用多层卷积神经网络(CNN)特征的互补优势 进行图像检索

    https://blog.csdn.net/qq_40716944/article/details/78506086
    高层特征用于度量语义相似度,低层特征用于度量细粒度相似度。给出一个简单易懂的例子,当查询图像是一个建筑物时,高层相似性捕捉到的图像包含一个建筑物,而低层相似性则捕获同一个从属同类实体的建筑物。显然,低层和高层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量。一些现有的方法试图利用多尺度无序汇集来进行CNN激活。例如,CNN特征分别从不同层次提取和编码,然后将这些不同层次的聚合特征进行连接以测量图像。但直接拼接不能充分利用高层和低层特征的互补性。高层特征可以搜索具有相似语义的候选图像的集合作为查询图像,但是它不足以描述细粒度的细节。因此,高层相似性会削弱低层相似性的有效性,当最近邻居之间的细粒度差别被区分时,语义相似。
    在本文中,我们建议以一种简单而有效的方式利用不同层次的CNN特征的更多互补优势。我们的方法试图突出低层相似性的有效性,当查询图像和最近的邻居之间的细粒度的相似性与相似的语义。换句话说,低层特征用于细化高层特征的排序结果,而不是直接连接多个层。如图2所示,高层特征不足以描述细节信息,而低层特征则来自背景混乱和语义歧义。以直接拼接的方式,由于高层相似度的影响,低层相似度在区分细粒度差异方面不起重要作用。使用映射函数,我们的方法利用低层特征来测量查询图像与具有相同语义的最近邻居之间的细粒度相似性。在实验中,我们证明了我们的方法比单层功能,多层连接以及其他基于手工特征的方法更好。

    五种方法提升特征融合的效率

    参考文章:
    ExFuse: Enhancing Feature Fusion for Semantic Segmentation
    https://arxiv.org/abs/1804.03821
    https://blog.csdn.net/u010158659/article/details/80413719
    https://blog.csdn.net/weixin_41876817/article/details/83058437
    这篇文章着重研究语义分割网络中高低层特征融合的效率问题。本文发现,当前语义分割方法直接融合高、低特征并不奏效,继而提出新架构 ExFuse.

    本文工作主要聚焦于 U-Net 分割架构的特征融合问题,并选择当前最优的 U-Net 架构之一——全局卷积网络(Global Convolutional Network/GCN)——作为主要的 backbone 分割架构.

    这篇文章从两个大的方向上提出了改善思路,即
    (1).增加低层特征的语义
    (2).在高层特征中增加更多空间信息。

    其中包括5个改善的细节,在下面一一介绍。

    (1)Direction 1: Introducing More Semantic Information into Low-level Features
    这篇文章中,作者为了增加低层特征的语义信息做了三点改进:

    • 网络结构重排(layer rearrengement),构建更适合于分割的预训练模型;
    • 深度语义监督(semantic supervision);
    • 语义嵌入支路(semantic embedding branch),将高层特征融入低层特征。

    (2)Direction 2: Embedding More Spatial Resolution into High-level Features
    高层特征空间信息的损失只要是由于其自身的低分辨率(尺寸小)。这篇文章尝试将更多的空间特征融入到通道(channel)中去,包括:

    • 通道分辨率嵌入(explicit channel resolution embedding);
    • 稠密邻域预测(densely adjacent prediction)。

    上述每一方法都带来了显著提升,组合使用涨点高达 4%。

    展开全文
  • 多尺度特征融合操作

    万次阅读 2020-06-19 11:06:29
    在目标检测和分割的任务中,我们...那为什么多尺度融合有效果呢。 我们知道现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征,我们可以知道高层网络的感受野比较大,语义信息表征...

    在目标检测和分割的任务中,我们都喜欢用多尺度 特征融合操作来提高准确率。以语义分割为例,大家在看到U-Net 以后想到的第一个自认为的创新就是加上 ASPP 结构。加上一个特征金字塔结构。然后做实验发现整个效果还是不错的。其实这个特征金字塔的结构就是一个多尺度特征融合的例子。在这里也可以证明了多尺度特征融合在深度学习中的好处。那为什么多尺度融合有效果呢。

            我们知道现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征,我们可以知道高层网络的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。高层的语义信息能够帮助我们准确的检测或分割出目标。因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。

    上图就是一个典型的多尺度融合网络结构。下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度map(深层)分辨率信息不足不适合小目标在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map,这也就是在进行分割和检测网络中如果进行多次的下采样操作很容易到底小目标的丢失。

    其中主要的网络结构可以分为以下几种:(1) 多尺度输入。(2) 多尺度特征融合。(3) 多尺度特征预测融合。(4) 以上方法的组合

    这个方法来自AI 不惑境

    多尺度输入:这种方法基本就是那种图像金字塔的结构,就是对输入的图像进行操作,得到不同的大小的图像分辨率,然后再把这些图像进行组合输入进去。方法如下图

    这种就是一个典型的多尺度图像融合的方法。

    多尺度特征融合:这个方法主要是对特征不同阶段的特征进行组合在一个而得到的结果。这种方法也好理解

    看下面的几个结构

    这是两个比较经典的不同尺度的特征融合方法。还有一个比较经典的就是ASPP网络

    多尺度的特征预测:这种方法主要是对不同的特征的进行预测输出然后把这个输出的结果进行组合得到一个最后的输出结果。这种方法在检测中应用的比较多。

    其实这种多尺度的特征融合的方法对于检测和分割网络的效果提升还是比较明显的。如果有机会大家也都可以试试。

    展开全文
  • 基于多尺度卷积网络多层次特征融合的道路识别
  • 提出了一种基于卷积神经网络的SAR图像舰船目标检测算法用来检测场景下的多尺度舰船目标,在单发盒探测器检测框架的基础上,使用性能更好的Darknet-53作为特征提取网络,加入更深层次的特征融合网络,生成语义信息...
  • 数据融合matlab代码MRFN多尺度表示融合网络 源代码用于以下已在IEEE SPL上发表的论文。 于慧,王凯,李艳,多尺度表示融合与联合重构自动编码器用于智能故障诊断,IEEE信号处理快报,2018,25(12):1880-1884。 ...
  • 为提高卷积神经网络对图像多尺度变化的感知能力,增加网络尺度不变性,提出一种基于多尺度卷积特征融合的台风等级分类模型。在卷积神经网络中添加多尺度感知层,对卷积特征进行多尺度感知并进行级联。将多尺度正则化...
  • 针对现有的基于卷积神经网络的行人重识别方法对于遮挡和复杂背景引起的判别信息缺失问题,提出了一种基于多尺度卷积特征融合的行人重识别算法。在训练阶段,使用金字塔池化方法对卷积特征图进行分块和池化,获得包含...
  • 基于多尺度融合特征卷积神经网络的遥感图像飞机目标检测.pdf
  • 实验结果表明,RF-YOLOv2模型能获得更深层的特征、能融合尺寸的目标信息,改善了目标检测过程中由实际道路场景复杂、目标外形和结构多变等特点导致的检测率不高问题,在保证算法实时性的条件下,提高了对目标检测的...
  •  一方面:具有多尺度特征融合,高层特征具有强的语义信息,底层特征包含更的细节。  另一方面:基于结构预测。例如使用CRF(条件随机场)做后端细化分割结果。 为了充分的利用全局特征层次先验知识来进行...

    Pyramid Scene Parsing Network

    收录:CVPR 2017 (IEEE Conference on Computer Vision and Pattern Recognition)

    原文地址: PSPNet

    代码:

        pspnet-github
        Keras
        tensorflow

    效果图:

    mark
    Abstract

    本文提出的金字塔池化模块( pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。实验表明这样的先验表示(即指代PSP这个结构)是有效的,在多个数据集上展现了优良的效果。
    Introduction

    场景解析(Scene Parsing)的难度与场景的标签密切相关。先大多数先进的场景解析框架大多数基于FCN,但FCN存在的几个问题:

    mark

        Mismatched Relationship:上下文关系匹配对理解复杂场景很重要,例如在上图第一行,在水面上的大很可能是“boat”,而不是“car”。虽然“boat和“car”很像。FCN缺乏依据上下文推断的能力。
        Confusion Categories: 许多标签之间存在关联,可以通过标签之间的关系弥补。上图第二行,把摩天大厦的一部分识别为建筑物,这应该只是其中一个,而不是二者。这可以通过类别之间的关系弥补。
        Inconspicuous Classes:模型可能会忽略小的东西,而大的东西可能会超过FCN接收范围,从而导致不连续的预测。如上图第三行,枕头与被子材质一致,被识别成到一起了。为了提高不显眼东西的分割效果,应该注重小面积物体。

    总结这些情况,许多问题出在FCN不能有效的处理场景之间的关系和全局信息。本论文提出了能够获取全局场景的深度网络PSPNet,能够融合合适的全局特征,将局部和全局信息融合到一起。并提出了一个适度监督损失的优化策略,在多个数据集上表现优异。

    本文的主要贡献如下:

        提出了一个金字塔场景解析网络,能够将难解析的场景信息特征嵌入基于FCN预测框架中
        在基于深度监督损失ResNet上制定有效的优化策略
        构建了一个实用的系统,用于场景解析和语义分割,并包含了实施细节

    Related Work

    受到深度神经网络的驱动,场景解析和语义分割获得了极大的进展。例如FCN、ENet等工作。许多深度卷积神经网络为了扩大高层feature的感受野,常用dilated convolution(空洞卷积)、coarse-to-fine structure等方法。本文基于先前的工作,选择的baseline是带dilated network的FCN。

    大多数语义分割模型的工作基于两个方面:

        一方面:具有多尺度的特征融合,高层特征具有强的语义信息,底层特征包含更多的细节。
        另一方面:基于结构预测。例如使用CRF(条件随机场)做后端细化分割结果。

    为了充分的利用全局特征层次先验知识来进行不同场景理解,本文提出的PSP模块能够聚合不同区域的上下文从而达到获取全局上下文的目的。
    Architecture
    Pyramid Pooling Module

    前面也说到了,本文的一大贡献就是PSP模块。

    在一般CNN中感受野可以粗略的认为是使用上下文信息的大小,论文指出在许多网络中没有充分的获取全局信息,所以效果不好。要解决这一问题,常用的方法是:

        用全局平均池化处理。但这在某些数据集上,可能会失去空间关系并导致模糊。
        由金字塔池化产生不同层次的特征最后被平滑的连接成一个FC层做分类。这样可以去除CNN固定大小的图像分类约束,减少不同区域之间的信息损失。

    论文提出了一个具有层次全局优先级,包含不同子区域之间的不同尺度的信息,称之为pyramid pooling module。

    mark

    该模块融合了4种不同金字塔尺度的特征,第一行红色是最粗糙的特征–全局池化生成单个bin输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,如果金字塔共有N个级别,则在每个级别后使用的卷积将对于级别通道降为原本的1/N。再通过双线性插值获得未池化前的大小,最终concat到一起。

    金字塔等级的池化核大小是可以设定的,这与送到金字塔的输入有关。论文中使用的4个等级,核大小分别为。
    整体架构

    在PSP模块的基础上,PSPNet的整体架构如下:

    mark

        基础层经过预训练的模型(ResNet101)和空洞卷积策略提取feature map,提取后的feature map是输入的1/8大小
        feature map经过Pyramid Pooling Module得到融合的带有整体信息的feature,在上采样与池化前的feature map相concat
        最后过一个卷积层得到最终输出

    PSPNet本身提供了一个全局上下文的先验(即指代Pyramid Pooling Module这个结构),后面的实验会验证这一结构的有效性。
    基于ResNet的深度监督网络

    论文用了一个很“玄学”的方法搞了一个基础网络层,如下图:

    mark

    在ResNet101的基础上做了改进,除了使用后面的softmax分类做loss,额外的在第四阶段添加了一个辅助的loss,两个loss一起传播,使用不同的权重,共同优化参数。后续的实验证明这样做有利于快速收敛。
    Experiment

    论文在ImageNet scene parsing challenge 2016, PASCAL VOC 2012,Cityscapes 三个数据集上做了实验。

    训练细节:
    项目     设置
    学习率     采用“poly”策略,即,衰减动量设置为0.9 and 0.0001
    迭代次数     ImageNet上设置150K,PASCAL VOC设置30K,Cityscapes设置90K
    数据增强     随机翻转、尺寸在0.5到2之间缩放、角度在-10到10之间旋转、随机的高斯滤波
    batchsize     batch很重要,设置batch=16(这很吃显存啊~)
    训练分支网络     设置辅助loss的权重为0.4
    平台     Caffe
    ImageNet scene parsing challenge 2016

        测试不同配置下的ResNet的性能,找到比较好的预训练模型:
        mark

        ResNet50-Baseline: 基于FCN的ResNet50结构,带空洞卷积的baseline
        ResNet50+B1+MAX:只带的平均池化,池化后做通道降维

    可以看到做平均池化的都比最大池化效果要好,最后将多个操作结合得到最终最好的效果。

    测试辅助loss的影响:
    mark

    实验都是以ResNet50-Baseline为基准,最后以为最佳。

    测试预训练模型的深度:
    mark

    mark
    可以看到在测试的{50,101,152,269}这四个层次的网络中,网络越深,效果越好。

    多种技巧融合
    mark
    带有DA即数据增强,AL即带辅助loss,PSP带金字塔池化模块,MS多尺度。

    在IamgeNet上的表现:
    mark
    PASCAL VOC 2012

    mark

    可以看到在MS-COCO上预训练过的效果最好。
    Cityscapes

    mark

    在Cityscapes上表现也是很不错的。
    Conclusion

    论文在结构上提供了一个pyramid pooling module,在不同层次上融合feature,达到语义和细节的融合。 模型的性能表现很大,但感觉主要归功于一个良好的特征提取层。在实验部分讲了很多训练细节,但还是很难复现,这里值得好好推敲一下。
    https://blog.csdn.net/u011974639/article/details/78985130
     

    展开全文
  • 特征融合阶段包括两部分,其一是融合不同尺度下Log-Gabor特征和局部二值模式特征组合的浅层次特征,其二是将多尺度浅层融合特征和卷积神经网络提取的深度特征进行级联,形成既包含语义信息又包含结构化信息的特征图像。...
  • 基于卷积神经网络多尺度融合特征图在人群密度估计中的应用.pdf
  • 然后通过对目标区域进行多尺度采样,提取其梯度方向直方图特征构建一维尺度相关滤波器,确定目标的最佳尺度。实验结果表明,与6种当前主流跟踪算法相比,该算法取得了最好的跟踪成功率与精度,同时在跟踪过程中较好...
  • 第二级对抗网络以可见光的灰度反转图像为辅助任务,采用小感受野的网络结构,补充红外仿真图像的细节纹理信息,并使用多尺度融合模块整合感受野信息以提升算法精度。在先进算法的通用数据集上进行实验,结果表明,级联...
  • 用于单图像排水的多尺度渐进融合网络(MSPFN) 这是TensorFlow提出的MSPFN模型()中提出的模型的实现。 要求 的Python 3 TensorFlow 1.12.0 OpenCV tqdm 球状 系统 动机 降雨图像及其多尺度版本(多尺度金字塔...
  • 提出了一种加权的双向特征金字塔网络,它允许简单和快速的多尺度特征融合 提出了一种复合缩放方法,可以同时统一缩放所有主干、特征网络和bbx/类预测网络的分辨率、深度和宽度 1.引言 在融合不同输入特征的时候,...
  • 多尺度并行融合的轻量级卷积神经网络设计.pdf
  • 针对传统去雾算法需要人工...实验结果表明, 相比于单一尺度网络, 多特征融合网络的峰值信噪比提高了1.280 dB。本文算法对自然雾天图像去雾效果明显, 细节信息和对比度均优于其他算法, 为去雾方法的研究提供了新思路。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,077
精华内容 6,830
关键字:

多尺度特征融合网络