精华内容
下载资源
问答
  • 利用平均场估计对条件随机场的高效实现。用于图像分割
  • 条件随机场代码(图像分割),可以直接对图像进行分割,也可以用于深度学习网络的后端优化
  • 基于分层条件随机场模式的语义图像分割
  • 基于语义知识和分层条件随机场图像分割
  • 条件随机场图像分割

    万次阅读 2017-05-15 20:28:06
    最近读一篇文献《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials》知道了条件随机场(CRF)这个概念。首先,对我来说这篇文献的涉及的知识量非常大,主要包括全连接,条件随机场,高位...

             最近读一篇文献《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials》知道了条件随机场(CRF)这个概念。首先,对我来说这篇文献的涉及的知识量非常大,主要包括全连接,条件随机场,高位滤波,potts模型等,在此仅谈对条件随机场的一点理解。

            博主也是看了大量博客以及论文才对CRF有了一知半解,关于条件随机场的概念建议看看李航的《统计学习方法》,其中有一章专门讲了CRF,并且通过一个简单的例子说明了条件随机场模型涉及特征函数及权重等概念。CRF模型实际上是一种概率无向图模型,概率无向图模型最大特点是易于因子分解(这里我还没太明白为什么概率无向图模型可以因子分解)


    看到这里,或许你和我一样会想到吉布斯分布,这不就是吉布斯分布的形式吗?于是我查了一下。果然有联系:Gibbs分布:如果无向图模型能够表示成一系列在G的最大团(们)上的非负函数乘积的形式,这个无向图模型的概率分布P(X)就称为Gibbs分布。于是求最大后验概率转化为求能量函数最小值。

    介绍完条件随机场,那么它在图像分割中怎么用呢?


    这里推荐参考张春芳的硕士论文:《基于条件随机场的图像语义分割》。



    展开全文
  • 论文仅供学习参考使用。 本论文对基于条件随机场图像分割方法展开研究,主要研宄了条件随机场的在图像分割中的模型构建方法。
  • 针对条件随机场(CRF)模型在参数估计及模型推断阶段时间复杂度较高的问题,引入简单线性迭代聚类(SLIC)的超像素方法,提出一种基于SLIC的条件随机场图像分割算法。该算法首先通过SLIC对图像进行预处理,将图像...
  • 一种基于分层高阶条件随机场模型的道路场景图像分割算法,杨旸,谢明远,本文提出一种基于分层高阶条件随机场模型的道路场景图像分割方法,首先对目标图像提取多类纹理特征,构建像素级的一元势函数和成
  • 论文仅供学习和参考。 综合利用边界信息、局部... 在条件随机场框架下融合这些特征, 通过显著性区域与背景区域的区域标注实现显著性区域的粗糙检测; 结合区域标注结果和交互式图像分割方法实现显著性区域的精确检测.
  • 针对目前结合条件随机场的深度神经网络语义分割的局限性,本文提出了基于区域分割以及基于超像素的目标团高阶势能随机场用于进一步优化深度神经网络在图像语义分割方向的表现。这两种高阶团势能对条件随机场的优化...
  • 针对图像语义分割图像的上下文信息利用不充分、边缘分割不清等问题,提出一种基于多尺度特征提取与全连接条件随机场的网络模型。分别以多尺度形式将RGB图像和深度图像输入网络,利用卷积神经网络提取图像特征;将深度...
  • 条件随机场(Conditional Random Fields, CRFs)因为具有对图像结构的建模能力可以作为一种有效的语义分割后处理方式,但是其缺点显著:一是训练和推断速度十分感人,二是其内部参数难以学习。该论文假设现有的全连接...

    欢迎扫描二维码关注微信公众号 深度学习与数学   [获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
    在这里插入图片描述

    论文地址 :ConvCRFs for senmantic segmentation
    工程地址:github 链接

    1. 简介

      基于深度神经网络的方法在图像语义分割任务上表现良好,其能够有效地进行特征抽取,并且仅用较小的感受野就能得到较好的预测结果,但是缺乏对于全局语义信息和像素点间联系信息的利用能力,也有研究有效地结合了卷积神经网络和建模能力较强的CRF以进行分割,效果也不错。
      条件随机场(Conditional Random Fields, CRFs)因为具有对图像结构的建模能力可以作为一种有效的语义分割后处理方式,但是其缺点显著:一是训练和推断速度十分感人,二是其内部参数难以学习。该论文假设现有的全连接条件随机场框架具有条件独立性,从而提出以卷积的方式重新构建CRF,使其参数能够利用反向传播算法进行优化,并且能够在GPU上高效实现以进行训练和推断过程的加速。

    2. 全连接条件随机场

      给定具有nn个像素的输入图像II和具有kk个类别的图像分割任务,II的分割可以建模为一个随机场X=X1,...,Xn={X_1,...,X_n},其中,每个参数XiX_i从{1,…,k}中取值,利用argmaxXP(XI)argmax_XP(X|I)得到输入图像II的一个分割XXP(XI)P(X|I)被建模为CRF并且符合Gibbs分布,如下所示:
    (1)P(X=x^I^=I)=1Z(I)exp(E(^I))P(X= \hat x|\hat I=I)=\frac{1}{Z(I)}exp(-E(\hat|I))\tag{1}

      其中能量函数E(x^I)E(\hat x|I)定义为:
    (2)E(x^I)=iNψ(x^iI)+i!=jNψp(x^i,x^jI)E(\hat x|I)=\sum_{i \leq N}\psi(\hat x_i|I)+\sum_{i!=j \leq N}\psi_p(\hat x_i,\hat x_j|I)\tag{2}

      函数ψu(xiI)\psi_u(x_i|I)称为一元变量,本身可以被视为图像的分割图,任一分割方法都可以用于这个一元变量的预测,实际上当下的语义分割方法都是使用CNNs来对其进行计算的。
      函数ψp(x^i,x^jI)\psi_p(\hat x_i,\hat x_j|I)是二元变量,代表像素i,ji,j的联合分布,使得模型可以利用像素点间的联系,比如颜色相近的点倾向于属于同一类,在FullCRF中ψp\psi_p被定义为高斯核权重的和:
    (3)ψp(x^i,x^jI):=μ(xi,xj)m=1Mω(m)kG(m)(fiI,fjI)\psi_p(\hat x_i,\hat x_j|I):= \mu(x_i,x_j)\sum^M_{m=1}\omega^{(m)}k_G^{(m)(f^I_i,f^I_j)}\tag{3}

      其中ω(m)\omega ^{(m)}是可学习的参数,特征向量fiIf_i^I可以任意选取,可能和输入图像有关。函数μ(xi,xj)\mu(x_i,x_j)是相容性转化,可以理解为极性,仅和标签xi,xjx_i,x_j有关,和图像无关。
      最常用的相容性函数是是Potts模型μ(xi,xj)=xi!=xj\mu(x_i,x_j)=|x_i != x_j|。这个模型将相似的特征赋予相同的标签,从而使得模型学习像素点间预测标签关系的结构信息。
      FullCRFs利用两个带有手工设计特征的高斯核,核kαk_\alpha使用IjIiI_j和I_i的颜色值作为特征,负责平滑的核则与位置坐标pipjp_i和p_j,完整地:
    (4)k(fiI,fjI):=ω(1)exp(pipj22θα2IiIj22θβ2)+ω(2)exp(pipj22θγ2)k(f_i^I,f_j^I):=\omega^{(1)}exp\left(-\frac{|p_i-p_j|^2}{2\theta_\alpha^2}-\frac{|I_i-I_j|^2}{2\theta_\beta^2}\right)+\omega^{(2)}exp\left(-\frac{|p_i-p_j|^2}{2\theta_\gamma^2}\right)\tag{4}

      其中ω(1),ω(2),θα,θβ,θγ\omega^{(1)},\omega^{(2)}, \theta_{\alpha},\theta_{\beta},\theta_{\gamma}是模型可学习的参数,多数分割模型中的CRF都利用了相同的二元变量,CRFs难以利用手工设计的特征进行优化就来源于此。

    2.1 平均场推断

      FullCRFs中的推断是通过平均场算法实现的,算法中除了信息传递的所有步骤都是高度并行的所以可以很好的在GPUs上使用通用的深度学习库实现,平均场[《模式识别与机器学习.pdf》第十章:近似推断中有讲解]算法具体如下:
    在这里插入图片描述
      Krähenbühl and Koltun原始的论文中提出使用permutohedral lattice approximation,但是这种近似推断需要复杂的数据结构,而且这种近似推断的有效梯度计算研究尚未完整,这也是为什么FullCRF使用手工设计特征的原因。

    3. 卷积条件随机场

      ConvCRFs在FullCRFs中引入了条件独立性假设,论文假设两个像素点i,ji,j的标签的分布条件独立,如果两个像素点的曼哈顿距离d(i,j)>kd(i,j)>k,则称kk为滤波器尺寸。
      这个假设是very strong的,它意味着当两个点的距离超过kk,则二元变量的值为0,这使得二元变量的计算量大大降低,而且令ConvCRFs的理论基础有了健壮且有意义的假设。

    3.1 ConvCRFs中的高效消息传递

      该论文主要贡献在于证明了ConvCRFs中的消息传递是非常高效的,这避免了permutohedral lattice approximation的使用,也就使得高效的GPU计算和完整的特征学习成为可能。基于这个目标论文重新构建了带有高斯核的卷积操作中的消息传递步骤,观察到其实现与卷积神经网络中的卷积操作的实现类似。
      给定输入PP,其形状为[bs,c,h,w][b_s,c,h,w],分别代表了batch size,分类的数量,输入的高和宽,对于由特征向量f1,...,fdf_1,...,f_d定义的高斯核gg,对于每一个形状[bs,h,w][b_s,h,w],它的核矩阵通过如下公式定义:
    (5)kg[b,dx,dy,x,y]:=exp(i=1dfid[b,x,y]fi(d)[b,xdx,ydy]22θi2)k_g[b,dx,dy,x,y]:=exp\left(-\sum^d_{i=1}\frac{|f_i^{d}[b,x,y]-f_i^(d)[b,x-dx,y-dy]|^2}{2\theta_i^2}\right)\tag{5}

      其中θi\theta_i是可学习的参数,对于高斯核集合g1,...,gsg_1,...,g_s,论文定义了一个融合的核K,即K:=i=1sωigiK:=\sum_{i=1}^s\omega_i \cdot g_i,所有的ss个核的消息传递输出结果QQ定义为:
    (6)Q[b,c,x,y]=dx,dykK[b,dx,dy,x,y]P[b,c,x+dx,y+dy]Q[b,c,x,y]=\sum_{dx,dy\leq k}K[b,dx,dy,x,y] \cdot P[b,c,x+dx,y+dy]\tag{6}

      消息传递与普通的2d-conv类似,不同在于,滤波器的值取决于位置坐标x,yx,y,这与局部连接层相似。而且论文提出的滤波器在通道维度是一个常数,可以通过通道维度来查看整个操作。
      综上,仅仅使用卷积操作是可以实现ConvCRFs的,只是需要在显存中进行几次数据的重新组织,90%的GPU计算时间都花在了数据重新组织上,所以论文只实现了一个较简单的版本,来获得十次CRF迭代的结果。
      实现中的第一步是获取形状为[bs,c,k,k,h,w][bs,c,k,k,h,w]的数据覆盖输入PP,这一过程与2d-conv中的im2col类似。2d-conv通过在空间维度应用批量矩阵乘法,而ConvCRFs用通道维度的批量点乘操作来代替这一操作。

    3.2 其他的实现细节

      为了可比较,论文使用了与FullCRFs相同的设计组件,特别的,使用了softmax正规化,Potts模型和手工社集的高斯特征。同样,将高斯模糊应用在承兑的核中,这也导致了有效的滤波器尺寸增加了四倍。
      附加实验中还验证了ConvCRFs学习高斯特征的的可行性,论文将输入特征pip_i替换为带有可学习变量的平滑核,这些变量与手工设计高斯核进行相同的初始化,并作为训练的一部分,论文还实现了一个使用点卷积的版本。

    4. 试验评估

    数据集 PASCAL VOC 2012
    Unary 训练ResNet101来计算一元变量,在ResNet顶部增加一个简单的FCN进行特征抽取和像素点标签预测,主干网络采用ImageNet预训练模型,然后在Pascal VOC数据集上训练。
      其他训练参数细节-略
    CRF CRF的平均场推断进行五次并且在训练时回滚。

    4.1 ConvsCRF用于合成数据

    在这里插入图片描述

    4.2 ConvCRFs的解耦训练

    在这里插入图片描述在这里插入图片描述

    4.3 ConvCRFs进行端到端的学习

    在这里插入图片描述

    展开全文
  • 为了获取图像的边缘信息,本文首先对图像进行超像素分割,然后利用前期生成的粗糙分割结果对图像进行超像素级别的语义信息标注,从而实现初步优化,然后将优化后的分割结果进行条件随机场建模并进行进一步优化,最终...
  • 提出证据马尔可夫随机场(EMRF)模型,并基于此提出新的图像分割算法.EMRF利用证据标号场描述像素标号的含混性,以证据距离描述相邻像素间的标号关系,利用条件迭代模型(ICM)算法进行优化.实验结果表明,EMRF相较于传统...
  • 条件随机场也被称为CRF,它经常被用作后处理工具来提高算法的性能。然而,在推断过程中,这种操作的计算成本可能很高,特别是在移动设备上。它使用了一组需要硬编码的参数,这使得它很难适用于整个测试集。这个问题...

    点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


    作者:Ihor Shylo

    编译:ronghuaiyang

    导读

    一个基于TensorFlow的CRF用法和实现的简单介绍。

    在一个理论上计算能力无限的现代世界,语义图像分割已经成为许多应用的关键方法,如自动驾驶、高级医学图像分析、目标检测和许多其他应用。通常,一个基本的U-Net神经网络在大多数时候都可以得到良好的结果。Dice系数是一个流行的图像分割度量。然而,在仔细检查预测mask之后,发现了错误预测像素的小的“孤岛”。因此,问题出现了:如何改进这些微小的不一致?

    条件随机场也被称为CRF,它经常被用作后处理工具来提高算法的性能。然而,在推断过程中,这种操作的计算成本可能很高,特别是在移动设备上。它使用了一组需要硬编码的参数,这使得它很难适用于整个测试集。这个问题的一个可能的解决方案是以循环神经网络(RNN)的形式添加一个CRF算法作为神经网络的附加层,并使其具有可训练性。虽然有很多关于这种方法的科学论文,但在大多数深度学习框架中还没有开箱即用的CRF-RNN实现。因此,这篇博文的主要目的是演示如何使用Tensorflow将这个额外的层插入到原来的U-Net模型中。

    用例描述

    用例是对文档(特别是收据)的像素级检测。常规检测无法捕捉到收据形状的变形。图1展示了其中一个标注图像,它是测试集的一部分。

    图1:用例的真实标注

    本质上,它是像素级的二元分类,其中0类定义为图像的背景,1类定义为文档。

    只使用 U-Net 方法

    数据集分为3个子集:训练集、开发集和测试集。后者用于模型的最终验证。用于图像像素分类的模型就是所谓的U-Net模型。

    图2:典型的U-Net结构

    它由两个主要部分组成:编码器和解码器。该技术的实现是受到Tensorflow图像分割的例子的启发。为了保持简短,可以在图3查看模型的大致结构。

    图3:U-Net模型的总体结构

    在通过网络之前,图像被缩放为224x224并归一化。请注意softmax层被省略了。在500张图像上训练30个epoch已经显示出相当不错的测试数据集的结果:Dice coefficient 0.983。图4中可以看到一个预测mask的例子。

    图4:U-Net预测Mask

    值得注意的是,正如前面所描述的,有一些用蓝色圈出的错误分类的小“岛”。这就是CRF-RNN层会派上用场的地方。在开始之前,有必要注意的是,由于特征已经训练好了,在添加新的CRF-RNN层之前,网络的权重应该被固定和设置为不可训练

    CRF-RNN

    一旦你训练好了特征,就可以开始加入CRF-RNN层,并再次训练网络。不幸的是,Tensorflow中没有一个预训练的CRF层。经过一番彻底的搜索,我偶然发现了Sadeep Jayasumana的GitHub仓库。他为Keras创建了一个自定义类,并将其公开。唯一的限制是批大小必须为1,这使得训练有点慢。然而,考虑到特征已经训练过的事实,这个限制似乎不是什么大问题。第一步,克隆git仓库并遵循安装说明。一旦完成,你就可以将定制的CRFRNNLayer加到你的网络上。下面的代码片段演示了它是如何在我们的用例中实现的:

    from crfrnn_layer import CrfRnnLayer
    
    def add_crf_layer(original_model):
        original_model.trainable = False
    
        crf_layer = CrfRnnLayer(image_dims=(224, 224),
                                num_classes=2,
                                theta_alpha=3.,
                                theta_beta=160.,
                                theta_gamma=3.,
                                num_iterations=10,
                                name='crfrnn')([original_model.outputs[0], original_model.inputs[0]])
    
        new_crf_model = tf.keras.Model(inputs = original_model.input, outputs = crf_layer)
    
        return(new_crf_model)
    

    有几个参数需要指定,如images_dims和迭代次数。第一个需要匹配特征提取中最后一层的输出维度。迭代次数是任意参数。对于所有其他的,它们服从超参数优化。新模型编译完成后,模型摘要如下:

    图5:自定义CRF-RNN Layer模型结构

    作为最后一步,在重新训练模型时,需要将EPOCHS参数设置为1,因为已经在自定义层中指定了迭代次数。

    在通过网络并在测试集上运行验证之后,我们观察到性能指标略有增加,显示Dice coefficient为0.9857。更重要的是,那些被错误分类的“小岛”消失了:

    图6:CNN CRF-RNN Mask预测

    现在你的解决方案离生产部署更近了一步!

    总结

    综上所述,Tensorflow中还没有实现开箱即用的CRF-RNN层。然而,感谢开源社区,有一个自定义的实现。要做到这一点,需要遵循以下步骤:

    1. 使用cnn训练你的特征。

    2. 使特征无法训练。

    3. 插入自定义CRF-RNN层。

    4. 重新训练网络。

    5. 使用新模型进行推理。

    还有几个要点需要进一步改进该层。首先,目前批量大小只有1的可能性。这是可以改进的,但是需要对层进行一些重构。其次,这个自定义方法不适用于Tensorflow Lite,因为这个操作符还没有在其中注册。也可以使用定制的内核,但这需要Tensorflow核心Lite库中的一系列c++实现。

    END

    英文原文:https://medium.com/@ihor.shylo/improving-performance-of-image-segmentation-with-conditional-random-fields-crf-8b93f7db396c

    请长按或扫描二维码关注本公众号

    喜欢的话,请给我个在看吧

    展开全文
  • 为了解决这个问题,我们把DCNN最后一层的响应与一个全连接的条件随机场(CRF)结合。 1.引言 a.端到端的DCNN方法明显优于基于精心设计表示(如SIFT、HOG)的方法,这可以部分归因于DCNN固有的对局部图像变换的不...

    摘要

    a.结合DCNN与概率图模型做像素级的分类(语义分割)。

    b.我们的实验表明DCNN最后一层的响应不能对精确的物体分割做出充分的局部化,其原因是DCNN的不变性。为了解决这个问题,我们把DCNN最后一层的响应与一个全连接的条件随机场(CRF)结合。

    1.引言

    a.端到端的DCNN方法明显优于基于精心设计表示(如SIFT、HOG)的方法,这可以部分归因于DCNN固有的对局部图像变换的不变性,也印证了它学习数据分层抽象的能力。虽然这种不变性对高层视觉任务有用,但它会妨碍低层次的任务,如位姿估计和语义分割,在这些任务中,我们想要精确的位置而不是空间细节的抽象。

    b.DCNN应用于图像标签任务有两个技术障碍:信号降采样和空间不敏感(不变性)。

    1. 第一个问题是由于标准DCNN层中重复的池化和降采样造成的信号分辨率减少。我们采用最初为高效计算离散小波变换开发的"空洞"(带孔)算法。这样可以高效密集地计算DCNN响应,且比早期的方案简单很多。
    2. 第二个问题涉及到这样一个事实,即从分类器获取以对象为中心的决策需要对空间变换具有不变性,这从本质上限制了DCNN模型的空间精度。我们采用全连接的条件随机场获取更好的细节来提升模型的能力。

    c.条件随机场已广泛应用于语义分割,把多路分类器计算的类别分数与像素和边缘或超像素相互作用获取的低级信息相结合。尽管一些对分割的分层依赖和/或高阶依赖进行建模的更复杂的工作被提出,我们用全连接的成对的CRF对它进行高效计算,可以获取更好的边界细节同时满足长期依赖的需要。

    2.相关工作

    3.用于稠密图像标注的CNN

    下面将讲述我们怎样为我们的稠密语义图像分割系统把公用的Imagenet,一个Simonyan和Zisserma2014年提出的流行的预训练的16层分类网络(VGG-16),重新设计并优化成一个高效实用的稠密特征提取器。

    3.1带空洞算法的高效稠密滑动窗口特征提取

    稠密空间分数评估有助于我们稠密CNN特征提取器的成功。第一步,我们把VGG-16的全连接层改为卷积层,以卷积的形式在图像原始分辨率上运行网络。但这样是不够的,因为计算的检测分数非常稀疏(步长为32像素)。为了在8像素步长上计算更稠密的分数,我们在Giusti、Sermanet等人2013年的方法的基础上设计一个变种。在Simonyan和Zisserman2014年的网络的最后两个最大池化层后不做下采样,并通过填充0修改后面的卷积滤波器以增加长度(最后三层卷积是2X,第一个全连接层是4X)。我们通过保持滤波器的完整性来更高效地实现这一点,分别用2和4像素步长对它们的特征图稀疏采样。这个算法在图1中描述,称为"空洞算法",之前用于高效计算小波变换。我们在Caffe框架的im2col函数(它把多通道特征图转化为矢量块)中添加选项来稀疏地采样下层特征图。这是通用的方法,使我们不用近似就能以任意采样率高效计算稠密CNN特征图。

    图1:一维空洞算法图解,这里kernel_size = 3,input_stride = 2,output_stride=1。

    按照Long的方法,我们直接微调 Imagenet-pretrained VGG-16网络的模型权重使它适应图像分类任务。我们把VGG-16最后一层的1000路Imagenet分类器改为21路。我们的损失函数是CNN输出图(和原图相比以8做降采样)每个空间位置的交叉熵之和。所有位置和标签在总损失函数中被给予相同权重。目标是实际标签(以8做降采样)。我们用标准的SGD优化所有网络层的目标函数。

    测试时,我们需要和原始图像分辨率大小相同的类别分数图(score maps)。如图2和4.1所述,类别分数图(与对数概率对应)很平滑,我们可以使用简单的双线性插值以可忽略的计算代价把分辨率增加8倍。Long等人的方法没有使用空洞算法,CNN输出产生的分数很粗糙(降采样系数是32)。这迫使他们使用学习过的上采样层,大大增加了系统的复杂度和训练时间:在PASCAL VOC 2012数据集上微调我们的网络需要大概10小时,但他们给出的训练时间是几天(都使用流行的GPU)。

    3.2 控制感受野大小、卷积网络加速稠密计算

    为了计算稠密分数,修改网络的另一个重要因素是控制网络的感受野大小。最近大部分基于DCNN的图像识别方法都依赖在Imagenet大规模分类任务的基础上预训练的网络。这些网络的感受野都很大:如VGG-16网络,如果用于卷积,它的感受野大小是224x224(用0填充)和404x404像素。把网络改成全卷积后,第一个全连接层有4096个大小为7x7的滤波器,称为计算稠密分数的瓶颈。

    我们把第一个全连接层空间降采样到4x4(或3x3)的空间大小来解决这个实践问题。这样感受野的大小就降为128x128(0填充)或308x308(在卷积模型中),在第一个全连接层减少2到3倍的时间。

    4.细节边界恢复:全连接的条件随机场和多尺度预测

    4.1深度卷积网络和定位问题

    如图2所示,DCNN分数图能可靠地预测图像中物体的大致位置,但不能精确地画出物体的轮廓线。卷积网络的分类精度和定位精度是相互矛盾的:带有多层最大池化层的较深模型更有利于分类任务,但不变性的增加和感受野的扩大使从顶层输出分数中推断出位置变得更具挑战性。

    最近的工作从两个方向解决这个定位挑战:第一个方法利用卷积网络的多层信息更好地估计物体边界,如2014年Long等人和2014年Eigen、Fergus的方法。第二个方法利用超像素表现(super-pixel representation),本质上是用低级(low-level)分割方法做定位。这个方法主要是遵循Mostajabi等人的思路,他们在2014年提出了一个很成功的方法。

    在4.2中,我们联合DCNN的识别能力和全连接CRFs精确定位细密纹理的能力提出一个新的方向,并证明这在解决定位挑战、产生精确的语义分割结果、恢复物体边界问题上比现有方法有明显优势。

    4.2用于精确定位的全连接条件随机场

    图2:飞机的分数图(在softmax函数前输入)和信念图(softmax函数的输出)。图中展示的是每次平均场迭代后的分数图(第一行)和信念图(第二行)。DCNN的最后一层输出作为平均场推理的输入。

     

    传统意义上,条件随机场用于平滑噪声分割图(Rother et al., 2004; Kohli et al., 2009)。通常这些模型包含耦合相邻节点的能量项(energy terms),有利于为空间上相近的像素分配相同的标签。定性地说,这些短程(short-range)CRFs的主要功能是清除建立在局部手工设计特征基础上的弱分类器的错误预测。

    这些较弱的分类器和现代的DCNN架构,就像我们在该项目中使用的,相比产生的分数图和语义标签预测有本质区别。如图2所示,分数图通常很平滑,产生同质分类结果(homogeneous classification results)。这种情况下,使用短程CRFs是不利的,因为我们的目的应该是恢复细致的局部结构而不是使之更平滑。将对比度敏感势能(contrast-sensitive potentials,Rother et. al., 2014)与局部范围(ocal-range)CRFs结合,可以潜在地改善定位,但仍然丢细小结构(thin-structures),并且通常需要解决高代价的离散优化问题。

    图3:模型展示。用双线性插值对来自DCNN(带全卷积层)的粗糙分数图进行上采样。全连接的CRF用于改善分割结果。

     

    为了解决短程CRFs的这些局限,我们在系统中引入Krahenbuhl和Koltun在2011年提出的全连接CRF模型。模型的能量函数是:

    E\left ( x \right )=\sum_{i}^{} \right \theta _{i}\left ( x_{i} \right )+\sum_{ij}^{} \right \theta _{ij}\left ( x_{i},x_{j} \right ). (1)

    其中x是指派给像素的标签。我们把\theta _{i}\left ( x_{i} \right )=-\log P\left ( x_{i} \right )作为单点势能(unary potential),其中P\left ( x_{i} \right )是DCNN计算出的像素i的标签分配概率。对势(pairwise potential)是\theta _{ij} \left ( x_{i}, x_{j} \right )=u\left ( x_{i}, x_{j} \right )\sum_{m=1}^{K} w_{m} \cdot k ^{m} \left ( f_{i}, f_{j} \right ),其中如果x_{i} \neq x_{j}u\left ( x_{i}, x_{j} \right )=1,否则为0(即波茨模型)。不论图像上任意两个像素ij的位置有多远,它们之间都有一个成对项(pairwise term),也就是说模型的因子图是全连接的。k^{m}是像素ij的特征(用f表示)的高斯核,其权重是w_{m}。我们用双方(像素ij)的位置和颜色来构造核,具体来说核是

    w_{1}exp\left (-\frac{\left | \left | p_{i}-p_{j}\right |\right |^{2}}{2\sigma _{\alpha }^{2}}- \frac{\left \| I_{i}-I_{j} \right \| ^{2}}{2\sigma _{\beta }^{2}} \right )+w_{2}exp\left ( - \frac{\left \| p_{i}-p_{j} \right \|^{2}}{2\sigma _{\gamma }^{2}}\right ). (2)

    其中第一个核与像素位置(用p表示)和像素颜色强度(用I表示)有关,第二个核只与像素位置有关。超参数\sigma _{\alpha }\sigma _{\beta }\sigma _{\gamma }控制高斯核的"尺度"。

    重要的是该模型能进行有效的近似概率推理。在完全可分解的平均场近似b(x)=\prod_{i}b_{i}(x_{i})下传递更新的消息可以表示为一个高斯核在特征空间卷积。高维滤波算法(Adams et. al,2010)显著地加速了这个计算,促成了一个在实践中快速的算法,用Krahenbuhl和Koltun在2010年公开的实施方法处理Pascal VOC图像平均少于0.5秒。

    4.3多尺度预测

    参考最近Hariharan和Long等人2014年的杰出成果,我们也探索了一个多尺度的预测方法来增加边界定位精度。我们把输入图片和前4个最大池化层的每一个输出与一个两层的MPL绑定(第一层:128个3x3的卷积滤波器,第二层:128个1x1的卷积滤波器),MPL的特征图和主网络的最后一层特征图连接在一起。输入softmax层的聚合特征图因此被提升到5x128=640通道。我们只调整新加的权重,其它网络参数保持它们在本文第3部分学习的结果。像实验部分讨论的那样,从精分辨率(fine-resolution)层引入这些额外的直接连接提高了定位精度,产生的效果并不如全连接的CRF效果显著。

    表1:(a)我们的模型在PASCAL VOC 2012验证集(在增广的训练集上训练)上的表现。最好的表现是通过利用多尺度特征和大视野获得的。(b)我们的模型(在增广的训练验证集上训练)的表现与当前主流的方法在PASCAL VOC 2012测试集上的对比。

    5.实验评估

    展开全文
  • 图像分割中的马尔可夫随机场方法综述 图像分割是由图像处理进到图像分析的关键环 节,在图像工程中占据重要的地位,分割结果的优劣 影响随后的图像分析、理解和景物恢复问题及求解 的正确与否。图像分割已得到广泛...
  • 前言 ...)前几天刚好做了个图像语义分割的汇报,把最近看的论文和一些想法讲了一下。所以今天就把它总结成文章啦,方便大家一起讨论讨论。本文只是展示了一些比较经典和自己觉得比较不错的结构,...图像语义分割
  • 深度卷积网络,多孔卷积 和全连接条件随机场图像语义分割DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFsTaylor Guo, 2017年5月03日 星期三...
  • 本文尽量避免了算法本身的一些复杂公式,结合自己的理解展示了如何实现马尔科夫随机场并将其应用到图像分割问题上,只要懂贝叶斯公式,懂得正态分布,就可以看懂本文的原理介绍。 首先用一句话概括:根据观测到的...
  • 再次赘述,这篇文章并不是要告诉大家复杂的条件随机场的数学原理,或者如何从源码编写crf程序,而是如何告诉大家如何使用别人已经写好的的工具去使用三维CRF分割三维的图像,其中主要是MRI图像分割。环境是linux...
  • (1)处理图像处理,因此我们首先需要安装openCV 。 该项目由Cmake控制。 (2)下载代码,并解压缩。 cd XXX / psp-crf /,main.cpp是内核代码,它需要一些util函数,因此我们需要编译一些Static库文件。 (3)cd ...
  • 在K-Means 图像分割的基础上,建立标记场和特征场,构造Markov 随机场模型,再利用条件迭代模型(ICM)算法逐点更新图像标记,实现图像的最大后验概率(MAP)估计,从而实现图像的有效分割。 实验结果表明,该方法比直接...
  • 已将论文、源代码、编译运行过程,写在了github中:PSP-CRF。 链接:https://github.com/411-3/PSP-CRFPSP-CRF
  • 这篇文章并不是要告诉大家复杂的条件随机场的数学原理,或者如何从源码编写crf程序,而是如何告诉大家如何使用别人已经写好的的工具去使用三维CRF分割三维的图像,其中主要是MRI图像分割。环境是linux环境,ubuntu...
  • 针对复杂交通场景图像中路面分割难度大和分割边缘粗糙的问题,提出了一种基于多特征融合和条件随机场的道路分割方法.首先,提取图像的纹理基元特征与颜色特征;然后,将道路分割问题视为一个基于像素的二分类问题,...
  • 普通下采样减小了图像的尺寸使得单个像素对应了更大的感受野,但是同时也使得分辨率下降,丢失了部分局部信息。此时自然想到需要一个不采用max pooling且仍能对应大感受野的采样方法,引入空洞卷积来解决下采样问题...
  • 在PCM算法的基础上,利用Markov随机场中的邻域关系属性,引入先验空间约束信息,建立包含灰度信息与空间信息的新聚类目标函数,提出马尔可夫随机场与PCM聚类算法相融合的图像分割新算法(MPCM算法)。实验结果表明,...
  • 条件随机场 。 -------------------以下引用自“十分钟理解语意分割”------ 举个简单的例子,“天空”和“鸟”这样的像素在物理空间是相邻的概率,应该要比“天空”和“鱼”这样像素相邻的概率大,那么天空的边缘就...
  • 利用条件迭代模型算法逐点更新图像标记,并结合区域生长思想,提出了一种基于去除干扰基团Markov随机场的SAR图像分割方法。数值试验通过与传统Markov分割算法从分割时间、迭代次数和收敛能量进行对比分析,结果表明,该...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 150
精华内容 60
关键字:

图像分割条件随机场