图像处理按照趋势补全图形_ios中图形图像处理第一部分:位图图像原图修改 - CSDN
  • 2010-10-23 22:42 19465人阅读 评论(10) 收藏 ...首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握一维信号处理的基本知识,也要掌
    2010-10-23 22:42 19465人阅读 评论(10) 收藏 举报

    最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握一维信号处理的基本知识,也要掌握图像处理的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。
    下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。
    搜索方向
    基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、googleyahoo和百度,个个鼎鼎大名。
    医学图像方向
    目前在医疗器械方向主要是几大企业在竞争,来头都不小,其中包括西门子、飞利浦和柯达,主要生产CTMRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞。
    模式识别方向
    我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。
    视频方向
    一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEGH.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个论坛或者各种招聘网站经常看到。我所知道的两个公司:诺基亚和pixelworks。


    其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司:上海豪威集成电路有限公司、中芯微、摩托罗拉上海研究院、威盛、松下、索尼、清华同方、三星。所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。
    要求:
    1
    、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。
    2
    、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。
    3
    、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。
    4
    、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。
    图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。
    我说点不好的,版主的说法我同意都是正面的,反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的。多数做图象的是用MATLAB,用别人的代码。在研究生三年学好C++毕业的有多少?在公司C++是重要的。图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。说这些不是波冷水,希望大家了解清楚。
    Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore.
    The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills...
    It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing
    我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像.
    其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性.
    顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司.
    楼主是好人,不过此文更多是安慰,新手不可太当真
    衡量专业好坏的标准有两个:应用前景和技术门槛。个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少。总的来说图像方向就业一般,it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见)

    1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。
    2
    )说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。
    3
    )再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。
    4
    )说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽。一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的。研究点做深入,注重实现能力、创新能力和学习能力,通过论文多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。
    5
    )当然,最后,找工的时候,包装是一种技巧,整合是一种需要。
    我觉得做图像处理还是很有前途的。

     

    作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。

    做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用。(这里我要感谢SMTH AI版的alamarik和Graphics版的faintt)

    导航栏: [1]研究群体、[2]大拿主页、[3]前沿期刊、[4]GPL软件资源、[5]搜索引擎。

    一、研究群体
    http://www-2.cs.cmu.edu/~cil/vision.html
    这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。

    http://www.cmis.csiro.au/IAP/zimage.htm
    这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。

    http://www.via.cornell.edu/
    康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。

    http://www2.parc.com/istl/groups/did/didoverview.shtml
    有一个很有意思的项目:DID(文档图像解码)。

    http://www-cs-students.stanford.edu/
    斯坦福大学计算机系主页,自己找吧:(

    http://www.fmrib.ox.ac.uk/analysis/
    主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration,

    Automated Segmentation,Structural brain change analysis,motion correction,etc.

    http://www.cse.msu.edu/prip/
    这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。

    http://pandora.inf.uni-jena.de/p/e/index.html
    德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。

    http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html
    CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture.

    http://cfia.gmu.edu/
    The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links

    between academic institutes, industry and government agencies, and to transfer key technologies to

    help industry build next

    generation commercial and military imaging and multimedia systems.

    http://peipa.essex.ac.uk/info/groups.html
    可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。

    二、图像处理GPL
    http://www.ph.tn.tudelft.nl/~klamer/cppima.html
    Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。

    http://iraf.noao.edu/
    Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software

    system for the reduction and analysis of astronomical data.

    http://entropy.brni-jhu.org/tnimage.html
    一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。

    http://sourceforge.net/projects/
    这是GPL软件集散地,到这里找你想要得到的IP库吧。

    三、搜索资源
    当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间:

    http://sal.kachinatech.com/
    http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml
    四、大拿网页
    http://www.ai.mit.edu/people/wtf/
    这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。

    http://www.merl.com/people/brand/
    MERL(Mitsubishi Electric Research Laboratory)
    中的擅长“Style Machine”高手。

    http://research.microsoft.com/~ablake/
    CV
    界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。

    http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html
    这位牛人好像正在学习汉语,并且搜集了诸如“两只老虎(Two Tigers)”的歌曲,嘿嘿:)
    他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。

    http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html
    这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。

    五、前沿期刊(TOP10)
    这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:)

    IEEE Trans. On PAMIhttp://www.computer.org/tpami/index.htm
    IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm
    Pattern Recognition http://www.elsevier.com/locate/issn/00313203
    Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655



    原文链接:http://blog.csdn.net/mpzsw/article/details/5961354

    展开全文
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达今天分享的是:深度学习领域基于图像的三维物体重建最新方法及未来趋势综述。原文:Image-based 3D Object Recon...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    今天分享的是:深度学习领域基于图像的三维物体重建最新方法及未来趋势综述。原文:Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

    论文下载:https://arxiv.org/abs/1906.06543

    摘要三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建(image-based 3D reconstruction)有了极大的关注并且展示出强大的性能。在新时代的快速发展下,我们提供了这一领域详细的调研。本文章专注于从RGB图像估计三维物体形状的深度学习方法。除此之外我们还回顾了关于特定物体(如人脸)的近期研究。我们一些重要论文性能的分析和比较,总结这一领域的现有问题并讨论未来研究的方向。

    • 本文是深度学习做三维重建的一篇综述

    • 对自2015年以来本领域的149个方法做详尽的回顾

    • 深入分析深度学习三维重建的各个方面,包括训练集,网络架构选择以及重建结果,训练技巧和应用场景

    • 总结对比了普遍的三维重建算法(88种),本文还包含了三维人脸重建算法(11种),人体形状重建算法(6种方法)

    问题陈述和分类

    假设 为物体的一张或多张RGB图片。三维重建可以总结为一个学习预测算子的过程,输入图像到该算子可得到一个和物体相似的模型。因此重建的目标函数为,其中为算子的参数,为重建结果和目标的距离函数,也称作深度学习中的损失函数。

    如上表所示,本文依据输入数据(Input),输出的表示(Output),神经网络结构(Network architecture)和训练步骤(Training)对算法进行了分类。输入可以是单张图片,多张图片(已知/未知外参),或是视频流,即具有时间相关性的图像序列;输入也可以是描述一个或多个属于已知/未知类别的物体;还可以包括轮廓,语义标注等先验作为输入数据。输出的表示对网络结构的选择来说很重要,它影响着计算效率和重建质量,主要有三种表示方法。体积表示(Volumetric):在早期深度学习的三维重建算法中广泛采用,它可采用体素网格来参数化三维物体;这样二维卷积可以很容易扩展到三维,但是会极大消耗内存,也只有极少数方法达到亚像素精度。基于面的表示(Surface):如网格和点云,它们占用内存小,但不是规则结构,因此很难融入深度学习架构中。中间表示(Intermidiate):不直接从图像预测得到三维几何结构,而是将问题分解为连续步骤,每个步骤预测一个中间表示。实现预测算子网络结构有很多,它的主干架构在训练和测试阶段也可能是不同的,一般由编码器h和解码器g组成,即。编码器将输入映射到称为特征向量或代码的隐变量x中,使用一系列的卷积和池化操作,然后是全连接层。解码器也称为生成器,通过使用全连接层或反卷积网络(卷积和上采样操作的序列,也称为上卷积)将特征向量解码为所需输出。前者适用于三维点云等非结构化输出,后者则用于重建体积网格或参数化表面。虽然网络的架构和它的组成模块很重要,但是算法性能很大程度上取决于它们的训练方式。本文将从三方面介绍。数据集:目前有多种数据集用于深度学习三维重建,一些是真实数据,一些是计算机图形生成的。损失函数:损失函数很大程度上影响着重建质量,同时反映了监督学习的程度。训练步骤和监督程度:有些方法需要用相应的三维模型标注真实的图像,获得这些图像的成本非常高;有些方法则依赖于真实数据和合成数据的组合;另一些则通过利用容易获得的监督信号的损失函数来避免完全的三维监督。以下为这些方面的详细介绍

    编码阶段

    基于深度学习的三维重建将输入图像编码为特征向量,其中为隐空间。一个好的映射方程应该满足一下性质。

    • 表示相似物体的两张图像映射在隐空间应彼此相似

    • 的一个小的扰动应与输入形状小的扰动对应

    • 由h引起的潜在表示应和外界因素无关,如相机位姿

    • 三维模型及其对应的二维图像应映射在隐空间的同一点上,这确保表示的特征不模糊,从而有助于重建

    前两个条件可以通过使用编码器解决,编码器将输入映射到离散或者连续的隐空间,它可以是平面的或层次的。第三个条件可以通过分离表示解决,最后一个在训练阶段通过使用TL架构(将在training章节中讲)来解决。

    离散隐空间Wu在他们的开创性工作[3]中引入了3D ShapeNet,这是一种编码网络,它将表示大小为的离散体积网格的三维模型映射到大小4000×1的向量表示中。其核心网络由3个卷积层(每个卷积层使用3D卷积滤波器)和3个全连接层组成。这种标准的普通架构已经被用于三维形状分类和检索,并用于从以体素网格表示的深度图中进行三维重建。将输入图像映射到隐空间的2D编码网络有着与3D ShapeNet相似的网络架构,但使用2D卷积,代表工作有[4],[5],[6],[7],[8],[9],[10]和[11]。早期的工作在使用的网络层的类型和数量上有所不同,包括池化层和激活函数有所不同。

    连续隐空间使用前一小节中介绍的编码器,隐空间可能不是连续的,因此它不允许简单的插值。换句话说,如果并且,则不能保证可以解码为有效的3D形状。此外,的小扰动也不会对应于输入的小扰动。变分自编码器(VAE)及其3D扩展(3D-VAE)具有一个让它们适合生成建模的独特的特性:通过设计,它们的隐空间是连续的,允许采样和插值。其关键思想是,它不是将输入映射到特征向量,而是映射到多变量高斯分布的平均向量和标准差向量。然后,采样层获取这两个向量,并通过从高斯分布随机采样生成特征向量,该特征向量将用作随后解码阶段的输入。这样的思想用于为体积表示([17],[18]),深度表示([19]),表面表示([20]),以及点云表示([21],[22])的三维重建算法学习连续隐空间。3D-VAE可以对在训练阶段没有见过的图片重建出不错结果。

    层次隐空间Liu[18]表明,将输入映射到单个潜在表示(向量表示)的编码器不能提取丰富的结构,因此可能导致模糊的重建。为提高重建质量,Liu引入了更复杂的内部变量结构,其具体目标是鼓励对潜在特征检测器的分层排列进行学习。该方法从一个全局隐变量层开始,该层被硬连接到一组局部隐变量层,每个隐变量层的任务是表示一个级别的特征抽象。跳跃连接以自上而下的定向方式将隐编码(向量)连接在一起:接近输入的局部代码将倾向于表示较低级别的特征,而远离输入的局部代码将倾向于表示较高级别的特征。最后,当输入到特定于任务的模型(如三维重建)中时,将局部隐编码连接到扁平结构。

    分离表示一张图像中物体的外观受多个因素的影响,例如对象的形状、相机位姿和照明条件。标准编码器用经过学习的编码表示所有这些变量。这在诸如识别和分类之类的应用中是不可取的,这些应用应该对诸如位姿和照明之类的外部因素保持不变。三维重建也可以受益于分离式表示,其中形状、位姿和灯光用不同的编码表示。为了达到这一目的,Grant等[5]提出一个编码器,可以将RGB图像映射为一个形状编码和一个位姿变换编码。它们将会分别解码为三维形状与光线条件位姿。此外,Zhu等人[24]使用相似的思想,将6DOF的位姿参数和三维模型解耦。这样减少网络中的参数,提高了效率。

    体积解码

    体积表示将三维物体离散化成三维体素栅格。离散化的越精细,模型也表示的更准确。解码的目标就是输入图像,恢复出栅格,使得三维形状近似真实的三维物体。使用体积栅格表示的优点是很多为二维图像分析设计的深度学习框架可以很简单地扩展到三维数据(三维卷积与池化)。下面分别介绍不同体积表示方式,低精度解码器架构以及高精度三维重建。下表为各种体积解码器的分类:

    三维形状的体积表示在文献中主要有四种体积表示方法:

    • 二元占用栅格(Binary occupancy grid)。在这种表示中,物体的体素被设为1,没有物体占用的体素设为0。

    • 概率占用栅格(Probabilistic occupancy grid)。在概率占用栅格中的每个体素编码了它属于物体的概率。

    • 符号距离函数(SDF-The Signed Distance Function)。每个体素编码了到最近表面的距离。体素在物体内距离为负,在外距离为正。

    • 截断符号距离函数(TSDF-Truncated Signed Distance Function)。首先估计距离传感器的视线方向上的距离,形成一个有符号的投影距离场,然后在较小的负值和正值处截断该场。

    概率占用栅格尤其适合输出为似然概率的机器学习算法。符号距离函数可提供表面位姿和法向量方向的无歧义的估计。然而它们很难从部分数据(如深度图)构建。截断距离符号函数牺牲了使用完整的距离域,但是允许基于局部观测来局部更新。他们适合从一组深度图中重建三维体积。

    低精度三维体积重建

    一旦通过编码器学习到输入的向量表示,下一步就是学习解码算子,也叫做生成器或生成模型,它把向量表示映射成体积体素栅格。方法普遍使用卷积反卷积网络。Wu等人[3]是最先用这种方法从深度图重建三维体积的。Wu等人[6]提出一个叫做MarrNet的两阶段三维重建网络。第一阶段输入图片、得到深度图、法向量图和轮廓图,这三个称作2.5简图。然后再输入另一对编码器解码器回归出三维体积模型。这个工作在后来被Sun等人[9]发展出也回归输入的位姿。这三类图更容易从二维图片中恢复,但很难重建出复杂精细的结构。Wu等人的工作[3]也有很多其他扩展,如[7],[8],[17],[27],[40]。尤其是近期的工作如[8],[11],[13],[18]不用中间表示回归出三维体素栅格。

    高精度三维体积重建

    有方法为高精度体积重建设计深度学习架构。例如,Wu等人[6]的工作可以重建出大小为的体素栅格。但是栅格精度越高,其存储会随着三次方增长,因此体积栅格表示消耗大量内存。我们把基于算法是否使用空间划分,形状划分,子空间参数化,或是由粗到精的优化策略分为四类。

    • 空间划分

      虽然体积栅格利于卷积操作,但是它很稀疏因为物体表面只在很少的体素内。一些论文用这个稀疏性解决分辨率问题,如[32],[33],[41],[42]。它们可以通过使用空间划分的方法(如八叉树)重建出的三维体素栅格。使用八叉树做基于深度学习的三维重建有两个问题。一个是内存和计算密集,第二点是八叉树的结构是和物体有关的,因此深度神经网络需要学习如何推断八叉树的结构以及它的内容。下面是两个问题的解决方案。一是使用预先定义的八叉树结构,即假设运行时八叉树的结构是已知的。然而这在很多情况下八叉树的结构是未知的且必须要预测。Riegler等[41]提出一种混合的栅格-八叉树结构叫做OctNet,它限制八叉树的最大深度为一个小的数字,并在一个栅格上放几个这样的八叉树。二是学习八叉树的结构:同时估计出八叉树的结构和内容。首先输入编码为一个特征向量。然后反卷积解码得到粗糙的输入的体积重建。将这个构建好的基分割成八份,包含边界体素的部分通过反卷积实现上采样以及后续处理,改善重建的区域。不断递归知直到达到期待的精度。

    • 占用网络

      虽然空间划分方法可以减少内存消耗,但是很难实现并且现有的算法建出的体素栅格也比较小()。最近一些论文提出用神经网络学习三维模型的隐式表示,如[43]和[44]。

    • 形状划分

      除了在空间上划分三维模型,还可以考虑把形状作为几何部分来分配,独立地重建出各个部分,再组合起来构成完整的三维模型。[42]和[29]使用了这样的思想。

    • 子空间参数化

      所有可能形状的空间可以使用一组正交基参数化。每一个形状可以由基的线性组合表示,即。这个简化了重建问题。不用学习如何重建体积栅格,取而代之的是设计一个由全连接层构成的解码器去从隐层表示估计参数,恢复出完整的三维模型。可参考文献[12]。

    • 由粗到细优化

      另一个提高体积表示三维重建算法分辨率的方法是使用多阶段的方法,如[26],[28],[35],[45],[46]。第一阶段用编码器和解码器恢复出低精度体素栅格()。接下来的阶段作用为上采样网络在局部地方改善重建模型。

    深度立方体匹配

    尽管体积表示适应于任意拓扑的三维模型,但它需要一个后处理步骤,即立方体匹配(marching cubes)[49],获得实际的三维网格。这样,整个过程不可以端到端地训练,为此Liao等人提出[50]一个可端到端训练的网络深度立方体匹配,可以预测出任意拓扑的显式表面表示。

    三维表面解码

    基于体积表示的重建算法浪费大量计算资源,因为信息只在三维物体表面附近丰富。基于表面的重建(mesh,点云)主要挑战是他们不是均匀的结构,因此它们很难放在深度学习框架。这一章节把基于表面重建算法分为三类:基于参数的,基于模版变形的,以及基于点的方法。前两类为基于网格的解码器,下表为它的分类。

    基于参数的三维建模(Parameterization-based 3D reconstruction)

    我们可以用一个映射,其中为一个正则参数域。三维建模的目标是从输入中恢复出形状的函数。当为三维域内时,重建算法就是上一节的体积重建。本节取为二维域内参数,它可以是一个二维空间平面的子集。球形参数和几何图像[62],[63]和[64]为最常用的参数化方法,但它们只适合0形(genus-0)和近似圆盘的表面,任意拓扑的表面需要分成像圆盘的几部分,然后展开成一个二维域。这样它适合重建属于同一类外形的物体重建,如人脸和躯干。

    基于形变的三维重建(Deformation-based 3D reconstruction)

    这类算法输入图像然后估计一个形变域,当运用在一个三维模版模型上时,就得到重建好的三维模型。现有的算法在形变模型的使用,模板定义的方式,以及用于估计形变域的网络架构上有所不同。我们假设三维模型由n个顶点和表面组成。定义为一个模板形状。

    • 形变模型:大致分三种。一是顶点形变:假设三维模型可以写作模版独立顶点的线形组合,这个形变域定义为,该形变模型如上图的上半部分所示,假设了物体和模版的顶点一一对应且有相似的拓扑结构,[55],[56],[57]用了该模型。二是可渐变模型:假设为平均形状, 为一组正交基,任何形状可以表达为,它的第二项可以视为形变域,算法[68],[69],[70]使用了该模型。三为自由式形变(FFD):除了对模版顶点形变,还可以如上图下半部分所示对附近空间形变,它被用于[58],[59],[60],它的优点是不需要顶点一对一的对应。

    • 定义模版:Kato等人[55]用球形做模板,Wang等人[56]使用椭圆,Henderson等人[20]定义两种模板。为了加速收敛,Kuryenkov等人[59]提出DeformNet,可以输入一张图片,在数据库找到最近临形状再用FFD形变。其他定义模板方法如[70],[57]。

    • 网络架构

      基于形变的算法也使用编码器解码器架构。编码器使用连续卷积操作把输入映射到隐空间,解码器通常使用全连接层估计形变域,用球形匹配输入轮廓。[59]如之前所述,在数据库找到相似模板,这个模板首先体素化,用三维CNN编码到隐空间表示,再通过反卷积解码到定义在体素栅格顶点的FFD域,相似的算法还有[60]。

    基于点的算法(Point-based techniques)

    一个三维模型可以由一组无序的N个点表示。基于点的表示简单但消耗内存小从而较有效。很多论文如[72],[21],[22],[73],[74],[75],[76],[77],[79],[80],[81],[82]等使用点云重建。

    点的表示

    点云的主要问题是它们没有规则的结构因此很难用于探索空间特征的神经网络。应对这种局限有三种方法解决。一是用点云集表示把点云当作的矩阵,如[21],[22],[72],[75],[77],[81]。二是使用一个或多个大小为的三通道栅格,如[72],[73],[82]。每一个栅格内的像素编码了三维点的坐标。三是用多视角得到的深度图,如[78],[83]。后两种解决方法可称为栅格表示,适合用于卷积网络,同时计算上也有效率因为它们可以只用二维卷积来预测。

    网络架构

    和体积与基于表面表示的算法一样,基于点表示的算法也使用编码器解码器模型,如下图所示,它们使用解码器的种类和架构不同。

    如上图(a)和(b),普遍栅格表示使用反卷积网络解码隐空间变量[72],[73],[78],[82]。基于点集的表示如(c)所示使用全连接层[21],[72],[74],[77],[81],因为点云是无序的。使用全连接层的主要优点是它可以捕捉全局信息。然而和卷积操作相比计算量较大。为了高效的卷积计算,Gadelha等人用空间划分空间排序点云(如KD树)然后用一维卷积处理它们,如上图(d),他们为了一起利用全局和局部信息,把隐空间变量解码为三个不同的分辨率,把它们连接起来再用卷积层处理生成点云。Fan等人提出[72]生成深度网络结合了点集表示和栅格表示,上图(a)。网络结构由几个级联的编码器-解码器组成。[74]和它类似,区别在于训练过程。和基于体积重建的算法类似,基于点的三维重建普遍也只恢复出低精度几何结构。对于高精度重建,Mandikal等人[81]如上图(c)所示,使用级联的多个网络结构:第一个网络预测低精度点云,之后的每个模块输入之前预测的点云,利用类似于PointNet[87]和PointNet++[88]的多层感受结构(MLP)去计算全局特征,在每个点周围MLP计算局部特征。局部和全局特征合在一起送进另一个MLP预测出稠密点云。这个过程可以不断重复直到得到需要的分辨率。Mandikal等人[21]还结合TL架构和变分自动编码器。基于点云表示的算法可以处理任意拓扑的三维物体。但是它们需要一个后处理步骤,例如泊松表面重建[89]或者SSD[90]来提取需要的三维表面网格。整个过程不能端到端训练。因此,这些方法只优化一个定义在中间表示的辅助损失函数。

    利用其他信息重建

    之前章节讨论了直接从二维观测重建三维物体。本节介绍其他额外信息(如中间表示和时间关系)如何用来帮助三维重建。

    中间表示

    一些方法把三维重建问题分解为几步,首先估计2.5维的信息,例如深度图,法向图或语义分割的区块,最后再用传统的方法(如空间分割或三维反向投影)再滤波,数据关联,恢复出完整的三维几何结构及输入的位姿。早期算法对不同模块单独训练,而如今的工作提出了端到端的解决方案如[6],[9],[38],[53],[80],[91],[92]。还有的算法从预先定义或任意的视角估计多个深度图,再利用深度图得到重建结果,如[83],[19],[73],[93]。[83],[73]和[9]除了深度图还估计出了轮廓图。使用多阶段方法的优点是深度图,向量图和轮廓图更容易从二维图像恢复出。从这三个恢复出三维模型要比单独直接从二维图像中恢复三维模型要更简单。

    时空关系

    有时候可以获取到从不同角度对同一物体拍摄的照片。基于单张图片的重建算法可以用来处理单帧得到三维建模,再通过配准合成完整模型。比较理想的是,我们可以利用图片间的时空关系来解决歧义,尤其是在遮挡以及特别杂乱的场景。也就是说,cnn在t时刻应该知道t-1时刻重建了什么,使用它以及新时刻的输入来重建t时刻的物体或场景。处理这样连续时刻数据已经使用RNN和LSTM解决,它们可以使网络记住一段时间内的输入。Choy等人提出[7]叫做3D循环重建网络(3D-R2N2),它可以从不同视角的信息学习物体的三维表示。这个算法让神经网络记住看过的图片并在输入新图片时更新存储,这可以解决物体自我遮挡问题。LSTM和CNN比较耗时并且RNN在输入图片输入顺序变化时不能再估计物体形状,为了解决这样问题,Xie等人提出[86]叫做Pix2Vox,由并行的多个编码器解码器组成。

    训练

    除了网络结构,深度学习网络也依赖它们训练的方法。本节讨论文献中使用的不同监督模式和训练步骤。

    监督的程度

    早期算法依赖于三维监督。然而不管是手动还是用传统三维重建算法来获取三维数据的真值都比较困难。因此最近一些算法尝试通过其他监督信号例如一致性通过列表最小化三维监督程度。

    • 三维监督的训练:训练时需要有三维真值,损失函数最小化重建的三维形状与真值之间的差异,有体积损失函数,点集损失函数,N个重建的最小损失函数(MoN)。

    • 二维监督的训练:相对三维来说获取2D或2.5D的视角更加容易,损失函数为真实的视角与重建物体的投影之间的差异。这需要定义估计的三维模型投影的计算子以及重投影误差方程。重投影误差方程主要有基于轮廓的损失函数,基于表面向量和深度的损失函数,或者结合二维与三维损失函数。

    视频监督训练

    另一个降低监督程度的方法是使用运动代替三维监督。为此,Novotni等人提出[100]使用运动估计结构(SFM)从视频生成监督信号:在训练阶段用视频序列生成部分点云和相对的相机参数。误差函数为网络训练的深度图和SFM得到的深度图的差异。在测试时,这个网络就可以直接从RGB图像恢复出三维几何结构。

    训练步骤

    除了数据集,损失函数和监督程度,还有一些训练神经网络做三维重建的实践经验。

    • 联合二维与三维:如上图(a)和(b),TL-embedding网络一起训练编码:有二维编码器和三维编码器。它们分别把二维图像和它的三维标注映射到隐空间的同一个点。[25],[79],[21]用这样的方法训练网络。

    • 对抗训练:通常步骤训练的可能结果在没见过的数据上重建效果不好。Yang等人[46],[103]开始用生成对抗网络(GAN)训练。GAN的潜力很大,因为它们可以模仿任何分布的数据。在单视图重建方面它们已用于体积重建[13],[17],[30],[40],[46],[103]以及基于点云的重建[74],[75]。三维监督的有[17],[30],[40],[46],[103],二维监督的有[13],[27],[97]。GAN很难训练,对于高精度的模型很不稳定,因此要平衡生成器和分辨器的学习,否则梯度会消失。

    • 和其他任务联合训练:联合训练重建与分割会让它们互相促进。如Mandikal等人[107]的方法。

    应用和特殊案例

    很多应用处理特定类别的物体如人的身体部位(脸和手等),野外的动物和汽车。使用这些物体类别的先验知识可以显著提高重建质量。

    三维人体重建

    虚拟的(数字的)人在很多应用如游戏,视觉体验影片中很重要,一些算法可以轻量地只从几个RGB图像中恢复出人体形状和位姿。有基于体积表示的,也有基于模板或参数表示的算法。一些算法只重建出人体模型[108],[109],还有算法也重建出了衣服[110],[111]。基于参数的算法主要把问题转化为不同的统计模型,三维人体模型估计就变为模型参数估计。主要模型有SCAPE[108],[109],[115]和SMPL[110],[116],[117],[118],[119]。基于体积的方法直接推断占用栅格,在之前章节描述的基于体积的方法可直接用于人体重建[121],[122]。

    三维人脸重建

    大多数方法使用参数表示来重建,广泛使用的是Blanz和Vetter提出的[68]三维形变模型(3DMM)。该模型从几何和纹理的角度捕捉面部的变化。Gerig等人[124]通过将表情作为单独的空间扩展了这个方法。

    三维场景解析

    除了单独的物体重建,场景解析问题在于遮挡,聚类,形状和位姿的不确定还需要估计场景布局。该问题结局方案涉及到三维物体检测和识别,位姿估计和三维重建。主要方法有[136],[138]。

    数据集

    下面表格列出并总结了普遍使用的数据集的属性。基于深度学习的三维重建需要特别大的训练数据集,监督学习还需要对应的三维标注,弱监督和无监督学习依赖外界监督信号如相机内外参。下表为一些数据集的信息。

    性能对比

    本节讨论一些关键算法的性能,下面介绍各种性能的标准和度量,并讨论和比较一些算法的性能。

    精度指标和性能标准

    为真实三维形状,为重建结果。

    精度指标:

    ·均方误差(MSE):重建结果和真值的对称表面距离

    这里分别是的采样点数量,是p到沿垂直方向到的距离,如L1和L2,距离越小,重建越好。

    ·交并比(IoU):IoU测量重建预测出的形状体积与真实体积的交集与两个体积的并集的比率

    其中是指示函数,是第i个体素的预测值,是真值,是阈值。IoU值越高,重建效果越好,这一指标适用于体积重建。因此,在处理基于曲面的表示时,需要对重建的和真实的三维模型进行体素化。

    ·交叉熵损失的均值:熵的均值越低,重建效果越好。

    ·搬土距离(EMD)和倒角距离(Chamfer Distance)

    性能标准:

    ·三维监督程度:基于深度学习的三维重建算法的一个重要方面是训练时三维监督的程度。事实上,虽然获取RGB图像很容易,但获取其相应的真实3D数据却相当具有挑战性。因此,在训练过程中,与那些需要真实三维信息的算法相比,通常更倾向于需要较少或不需要三维监督的技术。

    ·计算时间:虽然训练时间慢,通常希望可以达到实时表现。

    ·内存占用:神经网络需要大量参数。一些算法在体积上使用三维卷积,这样就会消耗大量内存,会影响实时性能限制它们的应用范围。

    比较和讨论

    下图展示了过去四年重建算法精度的改进。

    Fig. 6: Performance of some key methods on the ShapeNet dataset. References highlighted in red are point-based. The IoU is computed on grids of size . The label next to each circle is encoded as follow: First author et al. (year, n at training, n at test), where n is the number of input images.

    早期的研究大多用体素化表示,这样可以表示任意拓扑复杂物体的表面和内部细节。随着O-CNN,OGN和OctNet等空间分割技术提出,体积表示的算法可以达到相对较高的分辨率,例如。这是由于内存效率的显著提高。然而只有很少论文采用这些方法因为它们的实现比较复杂。为了实现高分辨率的三维体积重建,最近的许多论文都使用了中间表示,通过多个深度图,然后进行体积或基于点的融合。最近有几篇论文开始关注学习连续的有符号距离函数的机制或连续占用网格,这些机制在内存需求方面要求较低。它们的优点是,由于它们学习了一个连续的场,因此可以在所需的分辨率下提取重建的三维物体。图片显示出自2016年以来,使用ShapeNet数据集作为基准的几年来性能的演变。在大小为的体积栅格上计算的IoU度量上,我们可以看到在训练和测试时使用多个视图的方法优于仅基于单个视图的方法。此外,2017年开始出现的基于表面的重建算法略优于体积算法。图片还可看出2017年基于二维监督的算法出现后,性能越来越高。(a)和(b)两图看出基于三维监督的算法性能稍微更好。论文中表6为一些有代表性的算法的性能,见文尾原文的参考链接。

    未来研究方向

    在过去五年的大量研究中,使用深度学习进行基于图像的三维重建取得了很好的效果。然而这一课题仍在初级阶段,有待进一步发展。这一节介绍一些当前的问题,并强调未来研究的方向。

    • 训练数据问题。深度学习技术的成功在很大程度上取决于训练数据的可用性,不幸的是,与用于分类和识别等任务的训练数据集相比,包含图像及其3D注释的公开数据集的大小很小。二维监督技术被用来解决缺乏三维训练数据的问题。然而,它们中的许多依赖于基于轮廓的监督,因此只能重建视觉外壳。因此,期望在未来看到更多的论文提出新的大规模数据集、利用各种视觉线索的新的弱监督和无监督方法,以及新的领域适应技术,其中使用来自某个领域的数据训练的网络(例如,合成渲染图像)适应新的领域。研究能够缩小真实图像和综合渲染图像之间差距的渲染技术,可能有助于解决训练数据问题。

    • 对看不见的物体的一般化。大多数最新的论文将数据集分成三个子集进行训练、验证和测试,例如ShapeNet或Pix3D,然后测试子集的性能。但是,还不清楚这些方法如何在完全不可见的对象/图像类别上执行。实际上,三维重建方法的最终目标是能够从任意图像中重建任意三维形状。然而,基于学习的技术仅在训练集覆盖的图像和对象上表现良好。

    • 精细的三维重建。目前最先进的技术能够恢复形状的粗糙三维结构,虽然最近的工作通过使用细化模块显著提高了重建的分辨率,但仍然无法恢复植物、头发和毛皮等细小的部分。

    • 重建与识别。图像三维重建是一个不适定问题。因此,有效的解决方案需要结合低层次的图像线索、结构知识和高层次的对象理解。如Tatarchenko[44]最近的论文所述,基于深度学习的重建方法偏向于识别和检索。因此,他们中的许多人没有很好地概括,无法恢复精细的尺度细节。期望在未来看到更多关于如何将自顶向下的方法(即识别、分类和检索)与自下而上的方法(即基于几何和光度线索的像素级重建)相结合的研究,这也有可能提高方法的泛化能力。

    • 专业实例重建。期望在未来看到特定于类的知识建模和基于深度学习的三维重建之间的更多协同作用,以便利用特定于领域的知识。事实上,人们对重建方法越来越感兴趣,这些方法专门用于特定类别的物体,如人体和身体部位、车辆、动物、树木和建筑物。专门的方法利用先前和特定领域的知识来优化网络体系结构及其训练过程。因此,它们通常比一般框架表现得更好。然而,与基于深度学习的三维重建类似,建模先验知识需要三维注释,这对于许多类型的形状(例如野生动物)来说是不容易获得的。

    • 在有遮挡和杂乱背景的情况下处理多个对象。大多数最先进的技术处理包含单个对象的图像。然而,在野生图像中,包含不同类别的多个对象。以前的工作采用检测,然后在感兴趣的区域内重建。然而,这些任务是相互关联的,如果共同解决,可以从中受益。为实现这一目标,应处理两个重要问题。一是缺乏多目标重建的训练数据。其次,设计合适的CNN结构、损失函数和学习方法是非常重要的,特别是对于没有3D监督的训练方法。这些方法通常使用基于轮廓的损失函数,需要精确的对象级分割。

    • 3D视频。本文研究的是一幅或多幅图像的三维重建,但没有时间相关性,而人们对三维视频越来越感兴趣,即对连续帧具有时间相关性的整个视频流进行三维重建。一方面,帧序列的可用性可以改善重建,因为可以利用后续帧中可用的附加信息来消除歧义并细化当前帧处的重建。另一方面,重建的图像在帧间应该平滑一致。

    • 走向全三维场景解析。最后,最终目标是能够从一个或多个图像中语义分析完整的3D场景。这需要联合检测、识别和重建。它还需要捕获和建模对象之间和对象部分之间的空间关系和交互。虽然在过去有一些尝试来解决这个问题,但它们大多局限于室内场景,对组成场景的对象的几何和位置有很强的假设。

    总结和评论

    这篇论文综述了近五年来利用深度学习技术进行基于图像的三维物体重建的研究进展,将顶级的算法分为基于体积、基于表面和基于点的算法。然后,根据它们的输入、网络体系结构和它们使用的训练机制讨论了每个类别中的方法,还讨论并比较了一些关键方法的性能。该调研重点是将三维重建定义为从一个或多个RGB图像中恢复对象的三维几何体的问题的方法。然而,还有许多其他相关问题也有类似的解决办法。包括RGB图像的深度重建[153]、三维形状补全[26],[28],[45],[103],[156],[160],[161],深度图像的三维重建[103]、新视角合成[164],[165]和三维形状结构恢复[10],[29],[83],[96]等等。在过去五年中,这些主题已被广泛调查,需要单独的总结论文。

    本文仅做学术分享,如有侵权,请联系删文。

    推荐阅读

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    展开全文
  • A Two-Streamed Network for Estimating Fine-Scaled Depth Maps from Single RGB Images(一个双流式网络,用于从单个RGB图像估计精细的深度映射) Abstract 从单个RGB图像估计深度是一个有问题的和固有的含糊不...

    A Two-Streamed Network for Estimating Fine-Scaled Depth Maps from Single RGB Images(一个双流式网络,用于从单个RGB图像估计精细的深度映射)

    arXiv:1607.00730v4 [cs.CV] 4 Dec 2017

    Abstract

    从单个RGB图像估计深度是一个有问题的和固有的含糊不清的问题。最先进的深度学习方法现在可以估计精确的2D深度地图,但当地图投影到3D时,它们缺乏局部细节,而且常常高度失真。我们提出了一种快速列车双流式CNN,它可以预测深度和梯度,然后将它们融合在一起,形成精确而详细的深度地图。我们还定义了一个新的集合损失在多个图像;通过对一组普通图像之间的估计进行正则化,网络不太容易过度拟合,并且比竞争方法获得更好的精度。NYU Depth v2数据集上的实验表明,我们的深度预测与最先进的技术相竞争,并导致了可靠的3D投影。

    (一)Introduction

    从单目RGB图像中估计常见室内场景的深度在场景理解、深度感知图像编辑或重映、3D建模、机器人等方面有着广泛的应用。给定一个RGB图像作为输入,目标是预测每个像素的稠密深度图。推断潜在的深度是一个不适定的和固有的模糊问题。特别是室内场景的纹理和结构变化大,物体遮挡重,几何细节丰富,这些都导致了深度估计的困难。

    卷积神经网络(CNNs)的使用大大提高了深度估计技术的准确性。与其粗略估计像墙和天花板这样的大型结构的深度,最先进的网络[7,16]得益于使用预先训练过的CNNs,可以捕捉到精细的物品,如家具和家庭配件。深度估计成功的顶峰是能够从估计的深度生成真实准确的3D场景重建。准确可靠的重建应富有地方结构;在从重构中衍生出来的应用程序中,例如对象识别和深度感知图像重新呈现和编辑,细节变得尤为重要。尽管最近的作品评价得分令人印象深刻[7,16],但估计的深度地图仍然存在较细尺度的人为因素,表面之间的比对也不令人满意。这些扭曲在投射到3D时尤为突出(参见图1)。
    在这里插入图片描述
    其他基于CNN的端到端应用程序(如语义分割[4,21]和常规估计[1,7])在保存局部细节方面也面临着类似的挑战。重复的卷积和池操作对于捕获整个图像范围至关重要,但同时收缩分辨率和降低细节。虽然提出了上卷积和特征映射拼接策略[6,16,21,22]来提高分辨率,但输出地图的边界通常仍然不能与图像的边界对齐。因此,像双边过滤[2]或CRFs[4]这样的优化措施会产生进一步的改进。

    正是为了保留细节,我们才激发了我们在深度估计方面的工作。我们希望从CNNs的准确性中获益,但避免了分辨率和细节的下降。首先,通过引入一种新的集像损耗来保证网络的准确性和泛化能力。这种损失是在多个图像上共同定义的,其中每个图像都是通过标准数据增强技术对原始图像进行转换的版本。集合损耗不仅考虑每个变换后的图像输出深度的精度,而且有一个正则项来最小化集合内的预测差异。添加这个正则化器大大提高了深度精度,使RMS误差降低了约5%。由于在其他端到端框架中也使用了类似的数据增强方法,例如用于语义分割和正常估计,我们相信集合丢失的好处也会传递到这些应用程序中。

    我们通过考虑包含在深度梯度中的信息来捕捉场景细节。我们假设局部结构可以更好地编码一阶导数项而不是绝对深度值。从感知上讲,是尖锐的边和角定义了一个对象并使其易于识别,而不是(正确的)深度值(如图4所示)。因此,我们认为最好年代代表一个场景深度和深度梯度,并提出一个fast-to-train two-streamed CNN回归深度和深度梯度(参见图2)。此外,我们提出了两种融合的深度和深度梯度,通过一个CNN,允许对端到端训练,和一个通过直接优化。我们将我们的贡献总结如下:
    (1)一种新型的带有调整器的集像损耗,可以最小化相关图像估计深度的差异;这种损失可以更好地利用增强数据,增强网络泛化能力,提高估计精度。
    (2)结合深度和深度梯度表示2.5D场景;这种表示捕获本地结构和精细细节,并通过一个双流网络学习。
    (3)将深度和深度梯度融合为最终深度输出的两种方法,一种是通过CNNs进行端到端训练,另一种是通过直接优化;这两种方法都产生了深度地图,当投射到3D时,它的失真更小,而且比最先进的技术更丰富的结构和对象细节。

    用深度和深度梯度表示场景是多余的,因为一个可以从另一个派生出来。然而,我们表明,这种冗余提供了对局部细节的明确考虑,否则在标准欧几里得损失中就会损失在深度和/或损失中的简单一致性约束中。我们最终的深度输出是精确的和干净的,带有局部的细节,当投射到3D时比竞争的方法更少的工件。

    (二)相关工作

    深度估计是一个丰富的研究领域,我们只讨论单眼方法。早期作品处理深度模糊的一个关键策略是使用强假设和先验知识。例如Saxena等人[24,25]设计了一个多尺度的MRF,但假设所有场景都与地面平面水平对齐。不用明确预测深度,而对主要图像区域的几何结构进行估计,并组成简单的3D模型来表示场景。

    一旦RGB-D数据可以从激光或深度摄像机大规模收集,应用基于数据驱动的学习方法就变得可行[13,20,24,25,30]。Karsch等人提出了一种非参数方法来从对齐范例中转移深度,并将深度估计作为一个具有平滑约束的优化问题。Liu等将图像区域建模为超像素,采用离散-连续优化的方法进行深度估计,随后将中层区域特征和全局场景布局融合在一起。其他人则试图通过利用语义标签来提高深度估计[9,15,18]。然而,有了手工制作的功能,推断出的深度地图很粗糙,只能近似于场景的整体布局。此外,它们还缺少许多计算机视觉和图形应用所必需的细节。

    深度学习已被证明对深度估计非常有效[7,8,14,17,19,29,23]。Liu et al.[19]将CNNs和CRFs结合在一个统一的框架内,利用CNNs学习一元电位和成对电位。他们预测了在超像素级的深度,这种深度可以很好地保存边缘,但当投射到3D时,会受到失真和人为因素的影响,因为每个超像素区域在绘制后处理后保持相同或非常相似的深度。

    最近的一些方法[3,7,16]以完全卷积网络[21]的形式利用了预先训练好的CNNs的力量。来自VGG[28]和ResNet[10]等网络的卷积层进行了微调,而完全连接的层则从头重新学习以编码场景的空间特征映射。然而,学习过的地图的分辨率要比原始输入的低得多。为了恢复高分辨率深度图像,特征映射被上采样[3,7]或通过上卷积块[16]。我们的网络体系结构遵循类似的完全卷积方法,并通过向上采样提高分辨率。此外,我们在向上采样块之间添加跳跃连接,以更好地利用中间输出。
    在这里插入图片描述
    【两流式深度估计网络结构;顶部流(蓝色)估计深度,而底部流(粉色)估计深度梯度。虚线表示从VGG卷积层融合的特性(参见3.1节)。深度和深度梯度通过进一步的卷积层或者直接与深度和深度梯度之间的一致性进行优化组合。图形用色彩很好的被显示。】

    (三)Learning

    3.1. 网络结构

    我们的网络架构,如图2所示,遵循一个双流模型;一个流返回深度,另一个返回梯度,都来自于RGB输入图像。这两个流遵循相同的格式:一个图象解析块,由一个特征融合块和最后一个细化块组成。图像解析块由VGG-16(到pool5)的卷积层和两个完全连接的层组成。然后将第二层完全连通层的输出重新塑造为55×75×D特征图,并将其传递到特征融合块中,深度流的D= 1,梯度流的D=2。除了VGG-16,其他的预训练网络也可以用于图像解析块,例如VGG-19或ResNet。

    特征融合块由一个9×9卷积和池组成,然后是8个连续的5×5个卷积,没有池。它以一个下采样的RGB图像作为输入,然后将VGG卷积层的特征与图像解析块输出融合在一起。具体来说,VGG pool3和pool4的特征映射分别在输入端融合到第二层和第四层卷积层,而图像解析块的输出在输入端融合到第六层卷积层,都是通过跳跃层连接。VGG特性的跳过连接具有5×5个卷积和2x或4x向上采样,以匹配工作的55×75特征映射大小;图像解析块中的跳过连接是一个简单的连接。正如其他图像到图像映射工作所指出的[12,21,22],跳过连接提供了一种方便的方式来共享层次信息,我们发现这也导致了更快的网络训练收敛。特征融合块的输出是粗糙的55×75×D深度或深度梯度图。

    细化块与特征融合块类似,包含一个9×9卷积和池化,以及5个5×5个没有池化的卷积。它将一个向下采样的RGB图像作为输入,然后通过一个到第三个卷积层的跳过连接(连接)将特征融合块的双线性向上采样输出融合在一起。此块中的工作映射大小为111×150,输出为在此更高分辨率下的深度或梯度映射。

    深度和梯度融合块将两个独立流的深度和深度梯度估计合并为一个连贯深度估计。我们提出了两种可能性,一种是在端到端网络中进行卷积处理,另一种是通过数值优化。这两种方法在3.3节中进行了详细说明。我们向读者提供关于层、过滤器大小和学习速率的详细信息的补充材料。

    3.2. 设置图像损失函数

    对于许多机器学习问题,用原始训练样本的转换版本来扩充训练集已经成为标准实践。通过使用增广集进行学习,得到的分类器或回归器应该对这些变化更加健壮。损失应用于一些增广集,其中转换后的样本作为标准训练样本。然而,原始样本和转化样本之间有很强的关系,在培训过程中可以进一步加以利用。例如,重新着色以近似不同光照条件的样本图像的深度估计应该与原始图像完全相同。翻转后的样例在卸载输出后的深度估计也与原来的样例相同,依此类推。
    【暂时不细看】

    3.3. 深度和深度梯度估计

    为了学习深度梯度流中的网络,我们使用相同的公式,但是对两个梯度图G1和G2的像素差进行了修改,用L2g代替L2:
    在这里插入图片描述
    在端对端网络中融合:我们提出两种可能性,将深度和梯度流的输出融合到最终的深度输出中。第一个是通过组合块,其架构与细分块相同。它将RGB图像作为输入,通过跳过连接(连接)将深度估计和梯度估计融合在一起,作为第三个卷积层的输入。我们使用以下组合损耗Lcomb来保持深度精度和梯度一致性
    在这里插入图片描述
    在这种组合损失中,第一项Lset仅基于深度,而第二项强制最终深度梯度与估计梯度之间的一致性,且与方程5的l2g像素级差相同。

    **通过优化融合:*另外,由于优化措施也显示出在改进输出地图细化方面非常有效[2,4],我们直接估计了一个最优深度D
    在这里插入图片描述

    3.4. 训练策略

    我们在深度和梯度流上对网络应用相同的实现。除了VGG卷积层外,特征融合、细化和组合块中的全连通层和所有层都是随机初始化的。

    这两个流最初是单独训练的,每一个都有两个步骤。首先,对图像解析和特征融合块进行深度和深度梯度的损失训练。然后将这些块固定,而在细化块中进行第二步训练。对于每一步,使用相同的集丢失,并且具有适当的像素差异(见公式2,1,5),尽管地图分辨率不同(特征融合后5575,细化后11175)。如果采用基于优化的融合,训练就到此结束。另一方面,对于端到端网络融合,图像解析、特征融合和细化块是固定的,融合块使用组合损耗训练(公式6),最后根据组合损耗对两个流的所有块进行联合微调。

    网络是快速训练;收敛只需要2到3个epoch(如图3所示)。在前20K迭代中,我们使用梯度裁剪来稳定训练。为了快速收敛,我们使用的batch大小为1;注意,因为我们的损失是在图像集上定义的,所以batch的大小为1实际上是大小为N的小batch,这取决于所使用的图像转换的数量。

    正则化常数和w分别设置为1和10。初步实验表明,虽然A值越大,网络收敛速度越慢,但不同值的A值控制的集合图像规律的范围不影响结果的精度。w,控制梯度优化中梯度的范围,由验证集设置;一个较大的w过分强调了梯度估计中的工件,导致了不太精确的深度图。

    (四)实验

    4.1. 数据集以及评估

    我们使用NYU Depth v2数据集[26]和标准场景分割;从249个训练场景中提取~220k训练图像。对RGB图像进行一半的下采样,然后裁剪到232×310,与深度图像对齐后删除空白边界。深度转换为对数刻度,而梯度保持在线性刻度。

    我们在654 NYU Depth v2[26]测试图像上评估我们提出的网络和两种融合方法。由于我们的深度输出是111×150,分辨率低于原始的NYUDepth图像,所以我们对深度地图(4x)进行了双线性向上采样,并使用一个双边过滤器填充缺失的边界,类似于以前的方法[7,17,19,20]。我们在有效的Kinect深度投影区域评估我们的预测,使用与之前工作相同的方法。

    在这里插入图片描述

    4.2. 深度估计基准

    我们的深度估计的准确性与表1中的其他方法进行了比较。我们认为只有VGG-16基础网络的深度流的精度是基线,不需要添加梯度(Lsingle, depth only)。这个基线已经优于16,可以与7相媲美。然而,对于设置的损失函数(Lset,只考虑深度),我们用更精确的深度估计超过了[7],特别是在均方差误差方面以及阈值估计小于1.25.
    在这里插入图片描述
    目前最先进的成果是通过完全卷积方法实现的[3,7,16]。总体趋势是,更深的基础网络(VGG-19, ResNet-50 vs. VGG- 16)会导致更高的深度精度。我们在结果中观察到类似的趋势,尽管改进并不总是一致的。我们使用VGG-19比VGG-16取得了一些进展。然而,与[16]不同的是,我们发现ResNet-50几乎没有什么收获。

    4.3. 融合深度和深度梯度

    将深度估计与深度梯度融合在一起,在数量和质量上都达到了与优化相似的效果。当深度映射投影到3D(见图4)时,两种融合方法之间没有什么区别。与[16]s ResNet- 50结果相比,[16]s 3D投影更加扭曲,结果更加准确。事实上,许多结构,例如图4(a)中的架子、(b)中的沙发或(b,d)中的枕头是无法辨认的。此外,整个投影的三维表面似乎受到网格状工件的影响,这可能是由于它们的上投影方法。另一方面,[3]的预测更加清晰和详细,尽管他们的方法报告的准确性低于[16]。因此,我们的结论是,目前的数值评价措施是不完善的细节保存指标。这是意料之中的,因为细节的增加对数值精度的测量影响不大。相反,差异在质量上更为突出,尤其是在3D投影中。

    与[7]相比,我们的3D投影在适当的区域,即墙壁和平面上更干净和平滑。角落和边缘得到更好的保护,结果的场景更丰富的细节与更好的当地结构。例如,在凌乱的场景图4(b,c),[7]有重型工件在高质感的地区,例如墙上的照片(b)、(c)的窗口等地区,并有很强的反射( c )的内阁。我们的结果是这些困难是健壮的 ,给更忠实的3 d场景中预测潜在的对象。

    乍一看,你可能会认为,用深度和深度梯度共同表示场景,只会产生平滑效果。虽然融合的结果肯定是平滑的,没有平滑操作,2D或3D,可以恢复不存在的细节。当使用0.1m范围和1010空间高斯核(Lset depth +双边滤波)的二维双侧滤波器时,我们发现数值测度相差不大,但在细化上仍有一些损失(见图4)。

    4.4. 设置损失和数据增加

    我们提出的集像损耗对提高估计深度精度有很大的影响。对于表1中报告的结果,我们使用了图像集中的三个图像:I、flip(I)和colour(I)。翻转在垂直轴上,色彩操作包括随机增加或减少亮度,对比度和乘以随机RGB值r属于[0.8, 1.2]^3。初步实验表明,增加旋转和平移等操作并不能进一步提高性能,所以我们在训练中忽略了它们。我们推测,翻转和着色操作带来了更多的全局变化,但留下了准确的原因,为未来的工作。

    4.5. 训练 收敛和时间

    我们展示了我们的网络的收敛行为,用于图像解析和特征融合块的联合训练图3。与16相比,batch大小为1的错误减少得更快,只需0.6M梯度步长或2-3个epoch收敛即可。对于收敛实验,我们将单图像丢失(batch大小为1,16)与第4.4节中描述的集合图像丢失进行比较,观察到集合丢失的误差较小,但收敛速度较快。注意,我们的网络的快速收敛不是由于batch大小小,而是改进了的带有跳过连接的架构。相比之下,[7]的网络体系结构需要2.5M梯度步长才能汇聚(100多个epoch),而batch大小为16,但即使训练为1,收敛速度也不是很快。深度梯度估计的训练甚至更快,并且在一个时期内收敛。总的来说,我们在GPU TITAN X上的训练时间大约是70个小时(深度学习50个小时,梯度学习20个小时)。
    在这里插入图片描述
    图3。比较我们提出的网络和[7]之间的log10训练和测试错误。为了清晰起见,我们在每0.1个epoch中绘制日志错误,并且只显示前7个epoch,尽管[7]的方法还没有收敛。虚线表示训练错误,实线表示测试错误。对于第1批和第16批的结果,我们比较了Lsingle和Lsingle的错误。

    (五)Discussion and Conclusion

    我们提出了一种快速训练多流CNN架构,用于精确的深度估计。为了预测精确和详细的深度地图,我们介绍了三种新的贡献。首先,我们在多个图像上定义一个集合损失。通过在一个公共集合中对图像的估计进行正则化,我们获得了比以前更好的精度。其次,我们用一个联合深度和深度梯度表示的场景来表示,我们用一个双流网络来学习,以保留场景中的精细细节。最后,我们提出两种方法,一种基于cnn,另一种基于优化,将深度和梯度估计融合到最终的深度输出中。NYU Depth v2数据集上的实验表明,我们的深度预测不仅可以与最先进的技术相媲美,而且可以得到更精确、更丰富的3D投影。

    通过观察我们的实验结果以及最先进的方法[3,7,16]的结果,很明显,目前用于评估估计深度的数值指标并不总是一致的。当深度地图被投射到3D时,这种不一致性变得更加突出。不幸的是,场景的丰富性通常是通过清晰的结构细节来限定的,这些细节很难用数字来描述,反过来也很难设计出合适的损失或目标函数。或者,也可以使用图像估计深度作为输入,例如3D模型检索或基于场景的重新定位,尽管这种间接评估可能会引入其他混淆因素。

    我们的方法生成了精确而丰富的3D投影,但是输出仍然是111×150,而原始输入是427×561。与许多端到端应用程序一样,我们使用低于原始分辨率的分辨率来权衡网络参数的数量与训练数据的数量。虽然深度估计不需要标签,但主要的瓶颈是场景的变化。NYU Depth v2的训练图片来源于仅249个场景的视频。小的训练数据集大小可以解释为什么我们的集合损失和它的正则化项有如此大的影响。由于引入了更大的数据集[5],在更高的分辨率下工作可能变得可行。最后,在目前的工作中,我们只讨论了RGB源的深度和深度梯度的估计。通过将任务与其他估计(如表面法线和语义标签)相结合,可以进一步改进深度估计。
    在这里插入图片描述

    展开全文
  • 数学建模问题分析

    2020-04-13 23:00:34
    对数据补全和基本趋势分析(根据某个未知函数(或已知但难于求解的函数)的几个已知数据点求出变化规律和特征相似的近似曲线的过程。) 插值:求过已知有限个数据点的近似函数。 拟合:已知有限个数据点,求近似函数...

    一.数据处理

    1) 插值拟合:对数据补全和基本趋势分析

    对数据补全和基本趋势分析(根据某个未知函数(或已知但难于求解的函数)的几个已知数据点求出变化规律和特征相似的近似曲线的过程。)

    插值:求过已知有限个数据点的近似函数。

    拟合:已知有限个数据点,求近似函数,不要求过已知数据点,只要求在某种意义下它在这些点上的总偏差最小。

    插值和拟合都是要根据一组数据构造一个函数作为近似,由于近似的要求不同,二 者的数学方法上是完全不同的。

    插值的方法多种多样,拟合问题除了用最小二乘,还可以用机器学习OR深度学习算法来实现,但要注意过拟合问题。

    2) 聚类分析(高斯混合聚类,K—均值聚类):用于诊断数据异常值并剔除

    聚类分析用数量化的方法对事物进行分类,事物的类别标签未知(无监督学习),但已知样本的多个特征取值。

    3)主成分分析,线性判别分析,局部保留投影:多维数据的降维处理,减少数据冗余

    距离判别

    距离判别是简单、直观的一种判别方法,该方法适用于连续性随机变量的判别类, 对变量的概率分布没有什么限制。

    fisher判别

    Fisher 判别的基本思想是投影,即将表面上不易分类的数据通过投影到某个方向上,使得投影类与类之间得以分离的一种判别方法。

    当总体的参数未知时,我们用样本进行估计,注意到这里的 Fisher 判别与距离判别一样,不需要知道总体的分布类型,但两总体的均值向量必须有显著的差 异才行,否则判别无意义。

    bayes判别

    Bayes 判别和 Bayes 估计的思想方法是一样的,即假定对研究的对象已经有一定的 认识,这种认识常用先验概率来描述,当我们取得一个样本后,就可以用样本来修正已 有的先验概率分布,得出后验概率分布,再通过后验概率分布进行各种统计推断。

    4)均值,方差分析,协方差:数据的截取和特征选择

    显示出数据的趋势、特征和数量关系,包括描述性统计量算术平均值、中位数、标准差、方差、极差、偏度和峰度、参数估计、假设检验…分布函数、密度函数和分位数 、分布拟合检验、中位数检验。

    常用离散分布

    常用连续分布

    正态分布、均匀分布、指数分布、伽马分布、卡方分布与贝塔分布作了大致的介绍,需要记住它们的参数、数学期望与方差、以及密度函数,一个分布就是一个概率模型。

    二.关联与因果

    1)灰色关联分析(样本点少)

    灰色系统是部分信息已知而部分信息未知的系统,常常采用离散模型,建立一个按时间逐段进行短期分析的模型。其中的关联度分析方法,即根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度

    2)Superman,kendall等级相关分析
    3)Person相关(样本点多)
    4)Copula相关(金融数学,概率密度)
    5)典型相关分析

    三.分类与判别

    1)距离聚类(系统聚类)常用
    2)关联性聚类(常用)
    3)层次聚类

    层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。

    4)密度聚类
    5)贝叶斯判别(统计判别方法)

    Bayes 判别和 Bayes 估计的思想方法是一样的,即假定对研究的对象已经有一定的 认识,这种认识常用先验概率来描述,当我们取得一个样本后,就可以用样本来修正已有的先验概率分布,得出后验概率分布,再通过后验概率分布进行各种统计推断。

    6)费舍尔判别(训练的样本较少)

    Fisher 判别的基本思想是投影,即将表面上不易分类的数据通过投影到某个方向上,使得投影类与类之间得以分离的一种判别方法。
    当总体的参数未知时,我们用样本 进行估计,注意到这里的 Fisher 判别与距离判别一样,不需要知道总体的分布类型,但两总体的均值向量必须有显著的差异才行,否则判别无意义。

    7)模糊识别(分好类的数据点少)

    在工程技术和经济管理中,常常需要对某些指标按照一定的标准(相似的程度或亲 疏关系等)进行分类处理。例如,根据生物的某些性态对其进行分类,根据空气的性质 对空气质量进行分类,以及工业上对产品质量的分类、工程上对工程规模的分类、图像识别中对图形的分类、地质学中对土壤的分类、水资源中的水质分类等等。这些对客观 事物按一定的标准进行分类的数学方法称为聚类分析,它是多元统计“物以聚类”的一种分类方法。然而,在科学技术、经济管理中有许多事物的类与类之间并无清晰的划分, 边界具有模糊性,它们之间的关系更多的是模糊关系。对于这类事物的分类,一般用模糊数学方法、我们把应用模糊数学方法进行的聚类分析,称为模糊聚类分析。

    四.评价与预测

    1)模糊综合评判

    评价一个对象的层次,不能排序(模糊综合评价可以用来对人、事、物进行全面、正确而又定量的评价)

    2)主成分分析

    评价多个对象的水平并排序。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。比如人口统计学数量地理学、分子动力学模拟。

    3)层次分析法:做决策,通过指标。

    将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。

    4)数据包络(DEA)分析法:优化问题,对各省发展情况评价。

    根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。

    5)秩和比综合评价法:评价各个对象并排序,指标间关联不强。

    适用于四格表资料的综合评价,也适用于行×列表资料的综合评价,同时也适用于计量资料和分类资料的综合评价。

    6)神经网络评价:多指标非线性关系明确的评价
    7)优劣解距离法

    充分利用原始数据的信息, 其结果能精确地反映各评价方案之间的差距。

    8)投影寻踪综合评价法:柔和多种算法(遗传,最优化理论)
    9)方差,协方差分析

    协方差分析是加入协变量的方差分析,协变量实际上就是我们所说的控制变量,你的调查研究中如果有一些你并不真正关心、但有可能对因变量有影响的变量,你可以将其作为协变量,这就意味着你控制了该变量对因变量的效应,从而可以考察自变量与因变量的真实关系。

    五.预测与预报

    小样本内部预测,大样本内部预测,小样本未来预测

    大样本随机因素或周期特征的未来预测,大样本的未来预测

    1)灰色预测模型(重要)

    通过少量的、不完全的信息,建立数学模型并做出预测的一种预测方法

    2)微分方程预测(备用)

    无法直接找到原始数据之间的关系,但可以找到原始数据变化速度之间的关系,通过公式推导转化为原始数据的关系

    3)回归分析预测(重要)

    分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型预测模型,根据自变量在预测期的数量变化来预测因变量关系大多表现为相关关系

    4)马尔科夫预测(备用)

    主要用于市场占有率预测和销售期望利润的预测。就是一种预测事件发生的概率的方法。当概率转移矩阵为正规矩阵时,该矩阵将在第m代到达稳态(平稳)

    5)时间序列预测

    (重要)

    定量预测,其基本原理是:一方面承认事物发展的延续性,运用过去的时间序列数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到由于偶然因素影响而产生的随机性,为了消除随机波动产生的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

    6)小波分析预测

    小波变换是时间(空间)频率的局部化分析,它通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,有人把小波变换称为“数学显微镜”。(数据隐藏,水印)

    7)神经网络预测

    BP应用在分类,网络的训练是指给一些样本,同时告诉你这些样本属于哪一类,然后代入网络训练,使得这个网络具备一定的分类能力,训练完成以后再拿一个未知类别的数据通过网络进行分类。这里的训练过程就是先伪随机生成权值,然后把样本输入进去算出每一层的输出,并最终算出来预测输出(输出层的输出),这是正向学习过程;最后通过某种训练算法(最基本的是感知器算法)使得代价(预测输出与实际输出的某范数)函数关于权重最小,这个就是反向传播过程。

    8)混沌序列预测

    混沌时间序列是一种确定系统中出现的无规则的运动。混沌的离散情况常常表现为混沌时间序列,混沌时间序列是由混沌模型生成的具有混沌特性的时间序列,混沌时间序列中蕴涵着系统丰富的动力学信息

    六.优化与控制(运输,调度,最优)

    1)线性规划,整数规划,0-1规划(有约束,确定目标)
    2)非线性规划与智能优化算法
    3)多目标规划和目标规划
    4)动态规划
    5)图论,网络优化(多因素)
    6)排队论与计算机仿真

    由于生活中常常有服务的数量超过服务机构(服务台、服务员等)的容量;有形或无形的排队现象随处可见! 电话局的占线问题,车站、码头等交通枢纽的车船堵塞和疏导,故障机器的停机待修,水库的存贮调节等。

    7)模糊规划(范围约束)
    8)灰色规划

    当各灰数的白化值允许在指定区间内一致取数,并且区间内何处具有满意解,是用“漂移”方式解决的,则称漂移型灰色线性规划;若允许约束方程组中有尽可能多的约束方程,其约束值必须大于零,或者说该约束值是以零为下界的灰数,则为资源利用型(开发型)灰线性规划;若约束方程组中有尽可能多的约束方程其约束值为零,有尽可能多的约束值取下限,或者说是有上界的灰数,则为资源保守型灰线性规划。

    七.智能算法

    1)模拟退火法

    模拟退火算法作为一种通用的随机搜索算法,现已广泛用于VLSI设计、图像识别和神经网计算机的研究。

    2)粒子群算法

    用一种粒子来模拟上述的鸟类个体,每个粒子可视为N维搜索空间中的一个搜索个体,粒子的当前位置即为对应优化问题的一个候选解,粒子的飞行过程即为该个体的搜索过程.粒子的飞行速度可根据粒子历史最优位置和种群历史最优位置进行动态调整。

    展开全文
  • OpenGL 学习

    2014-03-10 19:09:42
    OpenGL入门学习 说起编程作图,大概还有很多人想起TC的#include 吧? ...但是各位是否想过,那些画面绚丽的PC游戏是如何编写出来的?就靠TC那可怜的640*480分辨率、16色...本帖的目的是让大家放弃TC的老旧图形接口,
  • 图像图形区别图像纯指计算机内以位图形式形式存在的灰度信息; 图形含有几何属性,更强调场景的几何表示,是由场景的几何模型和物理属性共同组成的。1.真实感图形绘制举例基于预计算的全局光照实时绘制表面细节...
  • 中国计算机图形学研究进展 2016-09-08刘永进科技导报 作者个人主页:http://cg.cs.tsinghua.edu.cn/people/~Yongjin/Yongjin.htm 摘要 本文从计算机图形学...
  • JEECG微云快速开发平台--开发指南 1. 前言 1.1. 技术背景 ...代码生成+手工MERGE半智能开发将是新的趋势,生成的代码可节省50%工作量,快速提高开发效率! 1.2. 平台介绍 JEECG [J2EE Code Genera
  • 无人驾驶硬件平台

    2017-03-16 22:26:37
    本文是无人驾驶技术系列的第十篇,着重介绍无人驾驶硬件平台设计。无人驾驶硬件系统是多种技术、多个模块的集成,主要包括:传感器平台、计算平台、以及控制平台。本文将详细介绍这三个平台以及现有的解决方案。...
  • 热点追踪/ 深度探讨/ 实地探访 / 商务合作近日,未来今日研究所(Future Today Institute)发布了最新版《2020 年科技趋势...
  • 2019-12-08 20:36:36 当前,人工智能正处在爆发期。我国在人工智能领域的科学技术研究和产业发展起步稍晚,但在最近十余年的时间里抓住了机遇,进入了快速发展阶段。在这个过程中, 技术突破和创造性高端人才对人工...
  • 如何在业余时间学习数据分析? 对一个准备入门数据分析行业的小白来说,这是最直接而首要的问题,每一部分学完能做什么,如何应用,是一个很大的问题。这样的学习,很容易未入门就放弃,所以并不建议从啃一本书开始...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达SLAM包含两个主要任务,定位和建图。这是移动机器人自主完成作业任务需要解决的基本问题,特别是在未知环境的情况下,移动机器人既要确定...
  • 如果要得到pose视图,除非有精密的测量方法,否则进行大量的样本采集时很耗时耗力的。可以采取一些取巧的方法,正如A Survey on Partial of 3d shapes...单侧面的曲面补全问题(曲面插值问题);pose特征的描述性问题。
  • 本节内容 Python介绍发展史Python 2 or 3?安装Hello World程序变量用户输入模块初识.pyc是个什么鬼?数据类型初识数据运算表达式if ...else语句表达式for 循环break and continue 表达式while 循环作业需求 ...
  • 近日,未来今日研究所发布了最新版《2019年科技趋势报告》,其中包括对人工智能在内的315项科技未来一年的发展前景进行了展望。这份报告对AI领域的技术预测可谓面面俱到,无论是对于AI企业、研究者,还是AI学习者,...
  • Lab 1

    2019-06-10 17:11:24
    本次实验通过求解四个问题(其中一个可选),训练基本Java编程技能,能够利用Java OO开发基本的功能模块,能够阅读理解已有代码框架并根据功能需求补全代码,能够为所开发的代码编写基本的测试程序并完成测试,初步...
  • 文章目录一瞥知识图谱的概念与分类知识图谱的三大典型应用1、语义搜索2、智能问答3、可视化决策支持通用知识图谱与特定领域知识图谱1、通用知识图谱2、领域知识图谱应用知识工程的五个发展阶段1)1950-1970时期:...
  • AI视野·今日CV 第158期视觉论文速览 --- 球卷积核SPH3D处理点云 --- 基于RGBD的显著性检测工具 --- VAE人脸身份属性去除 --- 图像目标移除补全 --- 超分辨率 --- 三维视角放大
  • 1.数据质量分析 主要任务是检查原始数据中是否存在脏数据,包括缺失值,...处理:删除、补全、不处理 异常值,不合常理的数据,剔除可消除不良影响,分析可进行改进。异常值分析也称离群点分析。 常用的分析方法:简
1 2 3 4 5 ... 20
收藏数 598
精华内容 239
关键字:

图像处理按照趋势补全图形