精华内容
下载资源
问答
  • 人工智能被认为是第四次工业革命,google,facebook等全球顶尖、最有影响力的技术公司...在计算机视觉领域,目前神经网络的应用主要有图像识别,目标定位与检测,语义分割。图像识别就是告诉你图像是什么,目标定位...

    人工智能被认为是第四次工业革命,google,facebook等全球顶尖、最有影响力的技术公司都将目光转向AI,虽然免不了存在泡沫,被部分媒体夸大宣传,神经网络在图像识别,语音识别,自然语言处理,无人车等方面的贡献是毋庸置疑的,随着算法的不断完善,部分垂直领域的研究已经落地应用。

    在计算机视觉领域,目前神经网络的应用主要有图像识别,目标定位与检测,语义分割。图像识别就是告诉你图像是什么,目标定位与检测告诉你图像中目标在哪里,语义分割则是从像素级别回答上面两个问题。因为项目需要对卫星遥感影像中的小麦和玉米进行语义分割,这几天在做相关方向的研究,下面给大家简单介绍下语义分割的相关知识。

    语义分割是什么

    图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割,例如让计算机在输入下面左图的情况下,能够输出右图。语义在语音识别中指的是语音的意思,在图像领域,语义指的是图像的内容,对图片意思的理解,比如左图的语义就是三个人骑着三辆自行车;分割的意思是从像素的角度分割出图片中的不同对象,对原图中的每个像素都进行标注,比如右图中粉红色代表人,绿色代表自行车。

    这里写图片描述

    语义分割当前应用

    目前语义分割的应用领域主要有:

    • 地理信息系统
    • 无人车驾驶
    • 医疗影像分析
    • 机器人等领域

    地理信息系统:可以通过训练神经网络让机器输入卫星遥感影像,自动识别道路,河流,庄稼,建筑物等,并且对图像中每个像素进行标注。(下图左边为卫星遥感影像,中间为真实的标签,右边为神经网络预测的标签结果,可以看到,随着训练加深,预测准确率不断提升。使用ResNet FCN网络进行训练)

    无人车驾驶:语义分割也是无人车驾驶的核心算法技术,车载摄像头,或者激光雷达探查到图像后输入到神经网络中,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。

    这里写图片描述

    医疗影像分析:随着人工智能的崛起,将神经网络与医疗诊断结合也成为研究热点,智能医疗研究逐渐成熟。在智能医疗领域,语义分割主要应用有肿瘤图像分割,龋齿诊断等。(下图分别是龋齿诊断,头部CT扫描紧急护理诊断辅助和肺癌诊断辅助)龋齿诊断

    头部CT扫描紧急护理诊断辅助,图片来自qure.ai

    语义分割数据集

    在“数据,算法,计算力”这AI发展的三大驱动力中,眼下最重要的就是数据,数据集在人工智能中有着举足轻重的地位,具体根据不同的应用领域,目前的数据集主要有:

     

    卷积化(Convolutional) 卷积化即是将普通的分类网络,比如VGG16,ResNet50/101等网络丢弃全连接层,换上对应的卷积层即可。

    这里写图片描述

    1. Pascal VOC系列: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ 通常采用PASCAL VOC 2012,最开始有1464 张具有标注信息的训练图片,2014 年增加到10582张训练图片。主要涉及了日常生活中常见的物体,包括汽车,狗,船等20个分类。
    2. Microsoft COCO: http://link.zhihu.com/?target=http%3A//mscoco.org/explore/ 一共有80个类别。这个数据集主要用于实例级别的分割(Instance-level Segmentation)以及图片描述Image Caption)。
    3. Cityscapes: https://www.cityscapes-dataset.com/ 适用于汽车自动驾驶的训练数据集,包括19种都市街道场景:road、side-walk、building、wal、fence、pole、traficlight、trafic sign、vegetation、terain、sky、person、rider、car、truck、bus、train、motorcycle 和 bicycle。该数据库中用于训练和校验的精细标注的图片数量为3475,同时也包含了 2 万张粗糙的标记图片。
    4. 语义分割中的深度学习技术

    5. 全卷积神经网络 FCN(2015)
    6. 论文:Fully Convolutional Networks for Semantic Segmentation FCN 所追求的是,输入是一张图片是,输出也是一张图片,

    7. 这里写图片描述

    8. 全卷积神经网络主要使用了三种技术:

    9. 卷积化(Convolutional)
    10. 上采样(Upsample)
    11. 跳跃结构(Skip Layer)
    12. 这里写图片描述
    展开全文
  • 本报告主要是针对弱监督视觉语义分割问题来介绍一下近两年来的一些工作。 对于语义分割,目前大家用到最多的就是这种全卷积网络。在全监督训练的情况下,我们需要给定训练图片及其对应的像素级标注的mask。然而这种...

    编者按:西汉刘安的《淮南子·说山训》中有这样一段话:

    见一叶落,而知岁之将暮;

    睹瓶中之冰,而知天下之寒.

    这两句话显示了人见微而知著的能力,人对这个世界的认知,是在对周围世界的不断探索过程中逐步形成的。从第一次张开双眼观察这个世界,到对这个世界的每一次发问,我们在父母的监督之下成长,整个学习过程也是伴随着外部反馈的大量监督信息。

    我们一直试图让机器像人一样学习,因此,在目标检测分类任务中,我们为机器提供了海量的有监督数据,使得机器在某些特定领域甚至取得了远超人类的能力。

    然而,对于语义分割任务,大量的像素级别的标注意味着无法想象的人工成本,与之相对应,人对视野内目标的语义分割,也无需以精细到像素级别的监督信息为保障,而只需以弱监督作为辅助。因此,学术界衍生出了针对弱监督的语义分割这一前沿方向。

    今天,来自美国伊利诺伊大学香槟分校的魏云超博士,将以一片叶子作为种子点”出发,带着大家深度学习,直至扩散出整幅图像中秋色的mask。

    文末,大讲堂提供文中提到参考文献的下载链接。

    640?wx_fmt=png


    本报告主要是针对弱监督视觉语义分割问题来介绍一下近两年来的一些工作。

    640?wx_fmt=png


    对于语义分割,目前大家用到最多的就是这种全卷积网络。在全监督训练的情况下,我们需要给定训练图片及其对应的像素级标注的mask。然而这种像素级的mask往往很难获取。

    640?wx_fmt=png


    比如,我们如果要在ImageNet上做语义分割的话,其标注的工作量会非常大。具体地,ImageNet上大概包括了2万类别,如果每一类我们只标100张图片用于训练的话,最终则需要标二百万的训练图片。如果标注一张图片需要五分钟,则一个人大概需要标注19年才能完成。因此大规模图像的全监督语义分割往往在数据标注上需要耗费大量的时间和金钱。

    640?wx_fmt=png


    因此我们考虑对于语义分割任务能否采用一些相对于像素级标注更容易获取的标注作为监督信息。这里我们给出了四种简单的标注方式,包括物体框、线条、点以及图像标签。我们称这些比像素级mask更容易获取的监督方式为弱监督。一般来讲,在这些弱监督信息中图像级的标签最容易获取。

    640?wx_fmt=png


    所以我们接下来的工作也都是围绕如何利用图像级的标签作为监督信息,最终实现像素级别的分类。实现这一目标的关键是如何构建训练图像中图像标签和像素之间的关联,即自动的推断出物体在图像中的位置。进而实现弱监督的物体定位或语义分割等任务。

    640?wx_fmt=png


    这是我们根据近两年在弱监督学习上的一些工作,主要探索了如何有效构建图像语义标签和像素之间的关联。这些工作在弱(半)监督的语义分割或定位等任务上都取得了当时最好的性能。

    640?wx_fmt=png


    首先是最早在PR上面一篇文章,我们提出了一种Proposal-based的方法来构建图像标签跟语义之间的关联。

    640?wx_fmt=png


    这篇文章的思路是训练一个多标签的分类网络,进而利用该网络对图片产生的proposal进行分类,最后将那些在某个类别上confidence比较高的proposal映射回原来的图片,从而获得语义标签和localization的关联。我们利用这种粗糙的localization图作为监督信息训练语义分割网络。

    640?wx_fmt=png


    我们利用了当时提出的Hypotheses-CNN-Pooling网络,训练了用于判别proposal类别的分类网络。最后利用那些高confidence的proposal生成物体的定位图。虽然这个工作当时取得了比较高的分割性能,但有两个明显的缺点。首先,该方法需要对所有的proposal都做一次分类,因此会有较高的时耗。其次,直接将proposal内的像素点作为物体区域会引入很多false positive像素,比如属于背景的像素。

    640?wx_fmt=png


    为了克服proposal-based方法的缺点,我们在2017年提出了一种Simple to Complex的方法。

    640?wx_fmt=png


    这个方法基于了一个有意思的观察。我们发现Internet上的图片可以大致分为两种,即简单图片和复杂图片。简单图片主要是指图片中的物体类别单一并且背景比较干净;复杂图片主要是指图片中物体类别语义多样并且背景非常杂乱。我们发现对于简单图片,可以通过显著性检测技术有效地获取包含前背景信息显著图。

    640?wx_fmt=png


    从上面的图中可以看出,在显著图上像素值越高,其同语义的关联性就越大。因此在知道简单图片语义标签的情况下,我们很容易通过显著图构建语义标签跟像素点的关系。

    640?wx_fmt=png


    基于这样的观察,我们提出了一种self-paced的Simple to Complex训练框架。我们首先从网络上下载大量的简单图片,然后通过显著性检测技术去获取其对应的显著图。进而利用显著图和语义标签作为监督信息去训练一个Initial的分割网络。特别地,在利用显著图作为监督信息的情况下每个pixel会以不同的概率属于物体或者背景。比如属于 “马” 的某个像素点可能以0.9和0.1的概率分别属于前景物体 “马” 和背景。在Initial网络训练完成后,其对简单图片已经具备了一定的分割能力,进而我们利用该网络预测出所有简单图片的masks,并利用这些masks训练一个Enhanced语义分割网络。最后我们通过Enhanced网络预测更多复杂图片的masks,并训练出一个更好的语义分割网络,即Powerful DCNN。

    640?wx_fmt=png


    这个是我们构建的Flickr-Clean 简单图像库及部分图片对应显著图。可以看出通过显著图构建像素和语义之间关系的方式是很有效的。

    640?wx_fmt=png


    通过左边的表格可以看出,Initial, Enhanced和Powerful网络对图像的语义分割能力在不断增强。通过右边的结果图也可以看出分割效果变得越来越好。这个方法虽然很简单,但在Pascal VOC上比当时最好的性能高出十个百分点。然而这个方法也有两个很明显的缺点:1)必须收集大量的简单图片,否则很难训练出一个性能较高的Initial网络并不断提高;2)训练样本多,训练时间长。

    640?wx_fmt=png


    鉴于这些不足,我们希望可以发现一种不依赖于简单的图片的方法,并可以达到较高的语义分割性能。于是我们在2017年提出了Adversarial Erasing。

    640?wx_fmt=png


    2016年发表在CVPR上的一篇文章(CAM)发现,分类网络可以通过Top-down的方式定位出图片上的哪些区域对物体分类的贡献较大,而这些区域往往属于对应语义的物体。然而,CAM方法的主要问题在于它只能发现最具判别力的一些物体区域(比如狗的头部),这些区域往往属于目标物体的某个part并且分布稀疏。这同语义分割需要定位完整物体的目标并不一致。

    640?wx_fmt=png


    为了定位较为完整的物体,我们提出了一种Adversarial Erasing的方法。该方法的motivation主要是通过不断擦除物体上最具判别力的一些区域,使得分类网络发现更多的物体的其它区域。如左图所示,我们首先将包含狗的图片输入分类网络中,通过训练可以获得属于狗的最具判别力的区域,即狗的头部。进而我们将狗的头部从图片中擦除掉,并将擦除后的图片输入分类网络进行再训练。网络会寻找其它的证据使得图片可以被正确分类,进而找到狗的胸部。重复此操作,狗的脚部也可以进一步被发现。最后通过融合擦除掉的区域就可以获得物体的整个区域。右图给出了更多示例以及最后通过融合擦除区域获得的整个物体区域。

    640?wx_fmt=png


    由于最终的目标是语义分割,我们最后把mining出的物体区域生成了图像的mask并用于训练语义分割网络,这部分在本文不做过多介绍,具体细节可以参阅paper。

    640?wx_fmt=png


    Adversarial Erasing方法没有用到任何额外数据,并在VOC12上获得了 55. 7的mIoU值。虽然这篇工作用更简单的方式(相对Simple to Complex) 获得了更高的性能,但也存在两个明显的问题:1)需要多次训练分类网络,时耗较高;2)对于每张训练图片很难确定何时停止擦除操作。我们在文章中采用通过观察分类网络收敛的loss值的方式来决定擦除的次数,但该方法很难保证所有训练图片都能达到最好的擦除效果。

    640?wx_fmt=png 640?wx_fmt=png


    针对Adversarial Erasing的两个缺点,我们进一步提出了一种Adversarial Complementary Learning的方法,并被CVPR 2018录用。首先我们发现Network-in-Network中提出的Global Avg Pooling (GAP) + Classification Loss的方式就可以获得跟CAM方法中完全一样的物体定位图 (如右图所示),我们在文章里也给出了数学证明。有了这个前提,我们就可以很容易的将Adversarial Erasing的思想嵌入到训练过程中。

    640?wx_fmt=png


    这是我们Adversarial Complementary Learning的框架图。我们首先利用一个分类网络来发现一些物体的判别区域,进而将这些区域从中间的特征图中擦除。我们将擦除后的特征图输入到另外一个分支中进行训练,进而获得同第一个分支互补的物体定位图。最后,我们将从两个分支获得物体定位图合并起来获得最终的结果。

    640?wx_fmt=png

    640?wx_fmt=png


    这是我们在ImageNet上的实验结果。可以看出不同的分类器定位的区域是具有互补性的,并且最后融合出了我们想要的结果。通过我们的定位图生成的物体框相比CAM方法也更加准确。

    640?wx_fmt=png


    我们的方法在ImageNet上达到了最好的定位性能。同时也测试了在Pascal VOC测试了语义分割结果,性能相比Adversarial Erasing提升了3.1个百分点(55.7->58.8)。

    640?wx_fmt=png

    640?wx_fmt=png


    我们在今年的CVPR上也发表了另外一篇相关的文章,通过一种更简单的方式获得了更好的定位结果。物体的某个区域之所以会被highlight出来,其实是因为这部分特征的判别力较强。如果这部分判别力较强的特征可以transfer到物体的其它区域,那么其它判别力较弱的区域也有可能被highlight出来。我们发现这个想法可以很容易的通过加宽卷积(dilated convolution)的方式实现。如上图所示,在输入的特征图上只有鸟的头部判别力最强(绿圈内的区域),随着dilation rate的提升越来越多的距离判别区域较远的物体区域都被成功的highlight。

    640?wx_fmt=png


    基于这个观察,我们在分类网络中引入了四种dilation rate不同的分支进行分类训练。从左图可以看出,不同的分支可以定位出了不同的物体区域,并最终融合出一个非常完整的物体定位图。如果把定位图应用于语义分割,我们需要通过一个threshold将物体区域从定位图中取出。右图对比了我们的方法跟CAM的对比,可以看出我们的方法无论对小物体还是大物体都可以很好定位,因此threshold也更容易选取。

    640?wx_fmt=png


    基于生成的物体定位图,我们尝试训练了弱监督和半监督的语义分割网络。其中半监督是指一部分图像的masks是通过人工标定的,而另外一部分仅利用了图像级的标签。

    640?wx_fmt=png


    我们对比了在不同设定下的分割图结果,可以看出随着人工标定图片的增多,效果也在一步步提升。同时,在弱监督的设定下,我们的方法在Pascal VOC上也获得了更高的分割性能(58.8->60.8)。在仅利用1400多张人工标注图的情况下性能可以进一步提升到68.5。该结果非常逼近全监督(1万张人工标注图)情况下的分割结果。

    640?wx_fmt=png


    在今年的AAAI上,我们发表了另外一种半监督语义分割的文章。

    640?wx_fmt=png


    在上个工作中提到的半监督方式可以被定义为In-category的半监督。In-category是指如果训练某个类的分割网络,则必须标定一些属于此类的图片。但在大规模类别的情况下(如ImageNet中的2万类),少量的标注仍会耗费大量的时间。因此,我们在这个工作中提出了一种Cross-category的半监督方法。Cross-category是指只有一小部分的类别具有人工标注的masks,而大部分类别都只有图像的标签。我们的目标是将在少量类别上学习到的分割能力迁移到大量的类别上。

    640?wx_fmt=png


    在这个工作中我们提出了一种Transferable Semi-supervised Network,主要包括了Label Transfer Network和Prediction Transfer Network。

    640?wx_fmt=png


    对于Label Transfer Network,我们首先利用有人工标注的图片训练了一个class-agnostic的前背景分割网络。进而通过CAM的方法找到每个类别在图片上最具判别力的种子点。最后我们通过self-diffusion的算法,将种子点在class-agnostic的分割图上扩散出属于不同类别物体的整个区域,从而获得包含语义信息的mask。

    640?wx_fmt=png


    为了使得预测的mask更接近于人工标注的mask,我们又提出了Prediction Transfer Network。P-Net利用mask上pixel的语义信息,将输入图片encode成跟语义数目一致的图片数量(如Pascal VOC上为21),并concat到一起作为input。我们利用GAN的思想训练出discriminator,用于判断哪些input是通过真实mask生成。最后我们固定P-Net的参数并对预测的mask给定假的标签,使得预测的mask尽可能逼近人工标注的mask。我们在Pascal VOC上仅用到了10个类别的人工标注mask,并在20个类上获得了64.6的分割性能。

    640?wx_fmt=png


    我们最终的目的是希望该方法可以实现大规模类别的语义分割,因此也在ImageNet上做了实验。上图是在部分类别上的分割结果。虽然没有任何人工标注信息,可以看出我们的方法仍然可以获得令人满意的分割结果。

    640?wx_fmt=png


    我们所有的工作都是围绕如何生成高质量的物体定位图开展的。这些物体定位图进而可以服务于语义分割或检测等任务。如何更高效的定位复杂场景内的物体、确定不同物体之间的边界是我们后续探索的目标。

    640?wx_fmt=png


    文中提到参考文献的下载链接为:


    链接: https://pan.baidu.com/s/1x82GXb7KwI_jNHWzZrCY9Q 密码: 1d3p


    640?wx_fmt=jpeg

    主编:袁基睿 编辑:程一

    整理:马泽源、杨茹茵、高科、高黎明

    --end--


    该文章属于“深度学习大讲堂”原创,如需要转载,请联系 Emily_0167。


    作者简介:

    640?wx_fmt=jpeg

    魏云超博士, 2016年获得北京交通大学(BJTU)信号与信息处理专业博士学位,导师为赵耀教授;2013年到2017年之间在新加坡国立大学(NUS)跟随颜水成博士和冯佳时博士从事访问学者和博士后的研究工作;现为美国伊利诺伊大学香槟分校(UIUC)Thomas Huang教授的博士后研究员;迄今发表学术论文30余篇,其中包括以下顶级期刊/会议:T-PAMI (4), T-IP, T-CSVT, T-CYB, T-MM, T-NNLS, TIST, PR, CVPR (7), ICCV, AAAI, MM。魏云超博士曾获得2016年中国电子学会和北京交通大学优秀博士论文奖;曾获得ImageNet视觉挑战赛在图像物体检测任务(ILSVRC-2014)和视频物体检测任务(ILSVRC-2017)的冠亚军;曾担任T-PAMI, CVPR等本领域主流期刊/会议的审稿人。其研究领域涉及计算机视觉和多媒体分析,主要包括:多标签分类,物体检测,语义分割,弱监督/半监督学习,多模态数据分析等。

     


    往期精彩回顾

    让机器“解疑释惑”:视觉世界中的结构化理解|VALSE2018之八

    让机器“提纲挈领”:视觉系统的紧凑性初探|VALSE2018之七

    让机器“删繁就简”:深度神经网络加速与压缩|VALSE2018之六

    让机器“看山是山”:脑启发的视觉计算|VALSE2018之五

    让机器“答问如流”:从视觉到语言|VALSE2018之四

    让机器“析毫剖厘”:图像理解与编辑|VALSE2018之三

    让机器“察言作画”:从语言到视觉|VALSE2018之二

    让机器“观色”:真实世界的表情识别|VALSE2018之一

    算法及大V们你们够了:如果CV界也有朋友圈...I 春节特刊

    CV领域的最美情话 I 情人节特刊



    640?wx_fmt=jpeg 640?wx_fmt=png 640?wx_fmt=png

    欢迎关注我们!


    深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!


    中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。


    中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

    640?wx_fmt=jpeg 640?wx_fmt=jpeg

    中科视拓

    640?wx_fmt=jpeg

    深度学习大讲堂


    点击阅读原文打开中科视拓官方网站


    展开全文
  • 目录语义分割(semantic segmentation)相关知识点(1) 语义分割常用数据集(2) 语义分割基本思路(3) 语义分割常用技巧 语义分割(semantic segmentation)相关知识点 语义分割是目标检测更进阶的任务,目标检测只需要框出...

    语义分割(semantic segmentation)相关知识点

    语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标。

    计算机视觉任务的困难: 拍摄视角变化、目标占据图像的比例变化、光照变化、背景融合、目标形变、遮挡等。

    (1) 语义分割常用数据集

    PASCAL VOC 2012 1.5k训练图像,1.5k验证图像,20个类别(包含背景)。

    MS COCO COCO比VOC更困难。有83k训练图像,41k验证图像,80k测试图像,80个类别。

    Cityscapes城市街景图像数据

    (2) 语义分割基本思路

    基本思路 :逐像素进行图像分类。我们将整张图像输入网络,使输出的空间大小和输入一致,通道数等于类别数,分别代表了各空间位置属于各类别的概率,即可以逐像素地进行分类。

    全卷积网络+反卷积网络:为使得输出具有三维结构,全卷积网络中没有全连接层,只有卷积层和池化层。但是随着卷积和池化的进行,图像通道数越来越大,而空间大小越来越小。要想使输出和输入有相同的空间大小,全卷积网络需要使用反卷积和反池化来增大空间大小。在这里插入图片描述
    反卷积(deconvolution)/转置卷积(transpose convolution) 标准卷积的滤波器在输入图像中进行滑动,每次和输入图像局部区域点乘得到一个输出,而反卷积的滤波器在输出图像中进行滑动,每个由一个输入神经元乘以滤波器得到一个输出局部区域。反卷积的前向过程和卷积的反向过程完成的是相同的数学运算。和标准卷积的滤波器一样,反卷积的滤波器也是从数据中学到的。

    反最大池化(max-unpooling) 通常全卷积网络是对称的结构,在最大池化时需要记下最大值所处局部区域位置,在对应反最大池化时将对应位置输出置为输入,其余位置补零。反最大池化可以弥补最大池化时丢失的空间信息。反最大池化的前向过程和最大池化的反向过程完成的是相同的数学运算。在这里插入图片描述

    (3) 语义分割常用技巧

    扩张卷积(dilated convolution) 经常用于分割任务以增大有效感受野的一个技巧。标准卷积操作中每个输出神经元对应的输入局部区域是连续的,而扩张卷积对应的输入局部区域在空间位置上不连续。扩张卷积向标准卷积运算中引入了一个新的超参数扩张量(dilation),用于描述输入局部区域在空间位置上的间距。当扩张量为1时,扩张卷积退化为标准卷积。扩张卷积可以在参数量不变的情况下有效提高感受野。例如,当有多层3×3标准卷积堆叠时,第l 层卷积(l 从1开始)的输出神经元的感受野为2l +1。与之相比,当有多层3×3扩张卷积堆叠,其中第l 层卷积的扩张量为2^{l-1}时,第l 层卷积的输出神经元的感受野为2^{l +1}-1。感受野越大,神经元能利用的相关信息越多。和经典计算机视觉手工特征相比,大的感受野是深度学习方法能取得优异性能的重要原因之一。在这里插入图片描述
    条件随机场(conditional random field, CRF) 条件随机场是一种概率图模型,常被用于微修全卷积网络的输出结果,使细节信息更好。其动机是距离相近的像素、或像素值相近的像素更可能属于相同的类别。此外,有研究工作用循环神经网络(recurrent neural networks)近似条件随机场。条件随机场的另一弊端是会考虑两两像素之间的关系,这使其运行效率不高。

    利用低层信息(跳跃结构) 综合利用低层结果可以弥补随着网络加深丢失的细节和边缘信息,利用方式可以是加和(如FCN)或沿通道方向拼接(如U-net),后者效果通常会更好一些。
    在这里插入图片描述
    NAS方法 近年来还有采用NAS+图神经网络的方法进行自动的语义分割网络构建,例如cvpr2020收录的文章Graph-guided Architecture Search for Real-time Semantic Segmentation。NAS 神经架构搜索
    ,先定义搜索空间,然后通过搜索策略找出候选网络结构,对它们进行评估,根据反馈进行下一轮的搜索。

    还有很多方法之后会单独介绍

    展开全文
  • 计算机视觉领域包括很多的分类,像如今有图像分类,目标检测,图像分割,图像融合,图像对抗生成,超分辨技术,语义分割,实例分割,全景分割均属于图像分割领域的研究方向 1.语义分割语义分割是将图片中的各类...

    计算机视觉领域包括很多的分类,像如今有图像分类,目标检测,图像分割,图像融合,图像对抗生成,超分辨技术,语义分割,实例分割,全景分割均属于图像分割领域的研究方向
    1.语义分割:
    语义分割语义分割是将图片中的各类信息进行分割,例如人的轮廓标记为红色,马路标记为紫色,但是不同的人是没有办法区分的,相当的与将图片中的图片进行了大类的外部轮廓与标签的匹配。
    2.实例分割;
    实例分割实例分割可以认为成一个升级版的目标检测,目标检测最终生成的是bounding box,而实例分割最终生成的是目标的轮廓,并且相同的大类仍然可以进行区分。
    3.全景分割:
    全景分割全景分割是实例分割与语义分割的结合,是语义分割的升级版,将语义分割的分类结果进行实例分割,最为实用。全景分割是将图片中的每一个物体全部进行分割检测,包括背景,最为详细。

    展开全文
  • 计算机视觉 - 语义分割 (semantic segmentation) 人工智能被认为是第四次工业革命,google,facebook等全球顶尖、最有影响力的技术公司都将目光转向AI,虽然免不了存在泡沫,被部分媒体夸大宣传,神经网络在图像...
  • 然而,尽管它具有重要意义,但这个问题仍未得到很好的探索,只有少数例外考虑了在具有狭窄视觉域的小规模数据集上的无监督语义分割。 我们首次尝试解决传统上用于监督案例的数据集(例如PASCAL VOC)上的问题。 ...
  • DeepLabv3+是一种非常先进的基于深度学习的图像语义分割方法,可对物体进行像素级分割。 本课程将手把手地教大家使用labelme图像标注工具制作数据集,并使用DeepLabv3+训练自己的数据集,从而能开展自己的图像语义...
  • 零射语义分割 普林斯顿大学高级论文 顾问:普林斯顿大学计算机科学系教授Olga Russakovsky 项目概况 这是Rohan Doshi的高级论文“零镜头语义分割”中描述的Seedmask零镜头网络(SZN)的PyTorch实现。 请参考本文...
  • 【AI科技大本营导读】目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学...
  • 语义分割常用数据集整理

    千次阅读 2020-09-18 10:22:16
    语义分割的数据集分为三类:2D图片,2.5D图片(RGB-D),3D图片。每一个类别的数据集都提供了像素级的标签,可以用来评估模型性能。同时其中一部分工作用到了数据增强来增加标签样本的数量。 一、2D数据 1.PASCAL ...
  • 计算机视觉——语义分割语义分割是什么?语义分割评价语义分割数据集经典算法介绍FCNPyramid Scene Parsing NetworkDeeplab V1 V2 V3 V3plusUperNetSqueeze-and-Excitation NetworksSelective Kernel NetworksGather...
  • 深度学习的语义分割在计算机视觉领域中有非常广阔的发展前景,但许多分割效果较好网络模型占用内存大和处理单张图片耗时长.针对这个问题,把Deeplab V3+模型的骨干网(ResNet101)的瓶颈单元设计为1D非瓶颈单元,且...
  • 文章来源:新智元作者:张皓【导读】本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类、定位、检测、语义分割和实例...
  • 作者:Cedrus ...来源:知乎 著作权归作者所有。...最简单的方式,就是跑一个pixel-wise的图像语义分割,再跑一个dense或者semi-dense的SLAM,把前者的结果map到后者的地图上去,每个像素(或者sur...
  • 计算机视觉-语义分割论文总结

    千次阅读 2020-04-08 13:45:16
    文章目录FCN 2015创新点CNN VS FCNLoss Function网络结构缺点SegNet 2016...本文按照计算机视觉领域语义分割的相关论文的时间顺序排列,如果没有你想看的,直接关掉就好了 语义分割的两大核心问题:What...
  • #计算机视觉任务: ##图像分类(image classification) 图像分类:根据图像的主要内容进行分类。 数据集:MNIST, CIFAR, ImageNet ##目标检测(object detection) 给定一幅图像,只需要找到一类目标所在的...
  • 语义分割

    千次阅读 2017-10-18 09:18:36
     作为传统的计算机视觉领域的经典问题,Semantic Segmentation 语义分割是分割问题研究的热门问题。具体来说,我们的目标是对于图像中所有像素点分配给其对应的标签(区别于Object Detection 和 Localization),...
  • 这个演示展示了如何创建、训练和评估基于 AlexNet 的全卷积网络进行语义分割。MATLAB 和计算机视觉系统工具箱提供了 fcnLayers 函数来创建 FCN,但这是基于 VGG-16 的 FCN。如果你想使用更低的计算网络成本,FCN-...
  • 语义分割是计算机视觉中的重大挑战之一。 最近,深度卷积神经网络(DCNN)在大多数计算机视觉任务中都取得了巨大的成功。 但是,就语义分割而言,DCNN方法仍然难以充分利用上下文信息并确定对象的精细边界。 在本文...
  • 这是一个代码,用于将精细标注的语义分割(多边形标注的json文件)标注转为目标检测框标注文件,并生成yolo需要的txt文件(需要的输出格式你们可以自己改)
  • 文章来源:新智元作者:张皓【导读】本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类、定位、检测、语义分割和实例...
  • 计算机视觉语义分割系列论文全解语义分割1.FCN网络2.空洞卷积DeepLab(v1和v2)RefineNetPSPnet大内核DeepLab v3VOC 2012引用和出处注明 语义分割 计算机视觉三大方向,图像分类(Image Classification),目标...
  • https://arxiv.org/abs/2011.11390 目前,深度学习方法广泛应用于处理语义分割等需要大量数据集和强大计算能力的计算机视觉任务。语义连续学习(CSS)是一个新兴的趋势,它通过不断地添加新的语义来更新旧的模型语义...
  • 由于单独的深度学习语义分割缺陷检测方法通常无法满足工业实际应用需求, 最后还需结合简单的机器视觉方法, 对深度学习语义分割方法检出的所有疑似缺陷区域进行二次判断筛选. 实验结果表明, 该方法针对亮点、暗点和...
  • 建模语义分割中的增量学习背景 这是我们工作的正式PyTorch实施:“在CVPR 2020中接受了“为语义分割中的增量学习建模背景”。 在本文中,我们提出了一种新颖的方法,并为语义分段中的增量学习定义了新的评估基准。 ...
  • 图像语义分割综述.rar

    2020-01-02 11:18:20
    语义分割是一种典型的计算机视觉问题,其涉及将一些原始数据(例如,平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使用术语全像素语义分割(full-pixel semantic segmentation),其中...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,077
精华内容 9,230
关键字:

视觉语义分割