精华内容
下载资源
问答
  • 图像处理、分析机器视觉(第三版) 图像处理算法 传统图像处理技术
  • 图像处理与计算机视觉技术的介绍,比较详细的介绍了计算机视觉的相关知识和技术,能够帮助理解图像处理和计算机视觉质检的关系。
  • 图像处理与计算机视觉基础总结,对目前的一些常用指示进行总结整理。
  • 图像处理与计算机视觉算法及应用, 本书中出现的大部分教学内容是详细理解书中所描述的算法的必备内容, 只有数学才能提供图像处理跟视觉系统中的高级方法所需要的推导跟证明
  • 图像处理与计算机视觉算法及应用例程.rar
  • 图像处理与计算机视觉概述

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

    也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                   

    ************************************************************************************************************************************************************************************ 

             在这里,我特别声明:本文章的源作者是   杨晓冬  (个人邮箱:xdyang.ustc@gmail.com)。原文的链接是
    http://www.iask.sina.com.cn/u/2252291285/ish。版权归 杨晓冬 朋友所有。

             我非常感谢原作者辛勤地编写本文章,并愿意共享出来。我也希望转载本文的各位朋友,要注明原作者和出处,以尊重原作者!                 

                                                                                                                                                                                 -----------------------------飞信天下

    ***********************************************************************************************************************************************************************************

                           图像处理与计算机视觉基础,经典以及最近发展

                                                                                                                                 By xdyang(杨晓冬xdyang.ustc@gmail.com)

    一、 绪论

    1. 为什么要写这篇文章

           从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,抓住重点来阅读,同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得很一般,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个工作给完善,力求做到尽量全面。


           本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的Introduction和Related work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在参考文献的汪洋大海里。

    2. 图像处理和计算机视觉的分类

     按照当前流行的分类方法,可以分为以下三部分:
    A.图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压      缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。

    B.图像分析:对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。


    C.计算机视觉:对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。


          关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理->低层视觉(low level vision),图像分析->中间层视觉(middle level vision),计算机视觉->高层视觉(high level vision)。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。

    3. 图像处理和计算机视觉开源库以及编程语言选择

           目前在图像处理中有两种最重要的语言:c/c++和matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++和matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。
     至于开源库,个人非常推荐OpenCV,主要有以下原因:
    (1)简单易入手。OpenCV进入OpenCV2.x的时代后,使用起来越来越简单,接口越来越傻瓜化,越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开 始入手了。


    (2)OpenCV有一堆图像处理和计算机视觉的大牛在维护,bug在逐步减少,每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不懂的平台,并提供了对Python的很好的支持。


    (3)在OpenCV上可以尝试各种最新以及成熟的技术,而不需要自己从头去写,比如人脸检测(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征检测,聚类,hough变换等等 。而且它还支持各种机器学习方法(SVM,NN,KNN,决策树,Boosting等),使用起来很简单。


    (4)文档内容丰富,并且给出了很多示例程序。当然也有一些地方文档描述不清楚,不过看看代码就很清楚了。


    (5)完全开源。可以从中间提取出任何需要的算法。


    (6)从学校出来后,除极少数会继续在学术圈里,大部分还是要进入工业界。现在在工 业界,c/c++仍是主流,很多公司都会优先考虑熟悉或者精通OpenCV的。事实上,在学术界,现在OpenCV也大有取代matlab之势。以前的demo或者source code,很多作者都愿意给出matlab版本的,然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本,或者自己集成到OpenCV中去,这样能快速提升自己的影响力。
           如果想在图像处理和计算机视觉界有比较深入的研究,并且以后打算进入这个领域工作的话,建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话,肯定可以找到一份满意的工作。


    4. 本文的特点和结构,以及适合的对象

        在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。

    由于个人精力和视野的关系,有一些我未涉足过的领域不敢斗胆推荐,只是列出了一些引用率比较高的文章,比如摄像机标定和立体视觉。不过将来,由于工作或者其他原因,这些领域也会接触到,我会逐步增减这些领域的文章。尽管如此,仍然会有疏漏,忘见谅。同时文章的挑选也夹带了一些个人的喜好,比如我个人比较喜欢low level方向的,尤其是IJCV和PAMI上面的文章,因此这方面也稍微多点,希望不要引起您的反感。如果有什么意见或者建议,欢迎mail我。文章和资源我都会在我的csdn blog和sina ishare同步更新。此申明:这些论文的版权归作者及其出版商所有,请勿用于商业目的。
    个人blog:       http://blog.csdn.net/dcraw
    新浪iask地址:http://iask.sina.com.cn/u/2252291285/ish?folderid=868438

          本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。


    二、 图像处理与计算机视觉相关的书籍

    1. 数学

          我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研数学的三个组成部分,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学书目了。

    2. 信号处理

        图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

    2.1经典信号处理

    信号与系统(第2版) Alan V.Oppenheim等著 刘树棠译

    离散时间信号处理(第2版) A.V.奥本海姆等著 刘树棠译

    数字信号处理:理论算法与实现 胡广书 (编者)

    2.2随机信号处理

    现代信号处理 张贤达著

    统计信号处理基础:估计与检测理论 Steven M.Kay等著 罗鹏飞等译

    自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

    2.3 小波变换

    信号处理的小波导引:稀疏方法(原书第3版) tephane Malla著, 戴道清等译

    2.4 信息论

    信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译

    3. 模式识别

    Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

    模式识别(英文版)(第4版) 西奥多里德斯著

    Pattern Classification (2nd Edition) Richard O. Duda等著

    Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

    模式识别(第3版) 张学工著

    4. 图像处理与计算机视觉的书籍推荐

    图像处理,分析与机器视觉 第三版 Sonka等著 艾海舟等译

    Image Processing, Analysis and Machine Vision

                    ( 附:这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。)

    数字图像处理 第三版 冈萨雷斯等著

    Digital Image Processing

    (附:数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。)

    计算机视觉:理论与算法 Richard Szeliski著

    Computer Vision: Theory and Algorithm

                    (附:微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和                       Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。
                      http://szeliski.org/Book/
                      Multiple View Geometry in Computer Vision 第二版Harley等著
                     引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到中英文版的电子版。)

    计算机视觉:一种现代方法 DA Forsyth等著

    Computer Vision: A Modern Approach

    MIT的经典教材。虽然已经过去十年了,还是值得一读。期待第二版

    Machine vision: theory, algorithms, practicalities 第三版 Davies著

    (附:为数不多的英国人写的书,偏向于工业应用。)

    数字图像处理 第四版 Pratt著

    Digital Image Processing

    (附:写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。)

    5. 小结

     罗嗦了这么多,实际上就是几个建议:
    (1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。
    (2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
    (3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看


    三、 计算机视觉中的信号处理与模式识别

          从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方便,按照字母顺序排的序。

    1. Boosting

        Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。
    Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与者。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。

    [1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

    [1998] Boosting the margin A new explanation for the effectiveness of voting methods

    [2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection

    [2003] The Boosting Approach to Machine Learning An Overview

    [2004 IJCV] Robust Real-time Face Detection

    2. Clustering

     聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。

    [1989 PAMI] Unsupervised Optimal Fuzzy Clustering

    [1991 PAMI] A validity measure for fuzzy clustering

    [1995 PAMI] On cluster validity for the fuzzy c-means model

    [1998] Some New Indexes of Cluster Validity

    [1999 ACM] Data Clustering A Review

    [1999 JIIS] On Clustering Validation Techniques

    [2001] Estimating the number of clusters in a dataset via the Gap statistic

    [2001 NIPS] On Spectral Clustering

    [2002] A stability based method for discovering structure in clustered data

    [2007] A tutorial on spectral clustering

    3. Compressive Sensing

     最近大红大紫的压缩感知理论。

    [2006 TIT] Compressed Sensing

    [2008 SPM] An Introduction to Compressive Sampling

    [2011 TSP] Structured Compressed Sensing From Theory to Applications

    4. Decision Trees

     对决策树感兴趣的同学这篇文章是非看不可的了。

    [1986] Introduction to Decision Trees

    5. Dynamical Programming

     动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter

    [1990 PAMI] using dynamic programming for solving variational problems in vision

    [Book Chapter] Dynamic Programming

    6. Expectation Maximization

     EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。

    [1977] Maximum likelihood from incomplete data via the EM algorithm

    [1996 SPM] The Expectation-Maximzation Algorithm

    7. Graphical Models

     伯克利的乔丹大师的Graphical Model,可以配合这Bishop的PRML一起看。

    [1999 ML] An Introduction to Variational Methods for Graphical Models

    8. Hidden Markov Model

     HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。

    [1989 ] A tutorial on hidden markov models and selected applications in speech recognition

    [1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

    [2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

    [2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models

    [2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

    Hmm Chinese book.pdf

    9. Independent Component Analysis

     同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。

    [1999] Independent Component Analysis A Tutorial

    [2000 NN] Independent component analysis algorithms and applications

    [2000] Independent Component Analysis Algorithms and Applications

    10. Information Theory

     计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。

    [1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

    [2010] An information theory perspective on computational vision

    11. Kalman Filter

     这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

    [1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

    [1970] Least-squares estimation_from Gauss to Kalman

    [1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

    [2000] The Unscented Kalman Filter for Nonlinear Estimation

    [2001 Siggraph] An Introduction to the Kalman Filter_full

    [2003] A Study of the Kalman Filter applied to Visual Tracking

    12. Pattern Recognition and Machine Learning

     模式识别名气比较大的几篇综述

    [2000 PAMI] Statistical pattern recognition a review

    [2004 CSVT] An Introduction to Biometric Recognition

    [2010 SPM] Machine Learning in Medical Imaging

    13. Principal Component Analysis

     著名的PCA,在特征的表示和特征降维上非常有用。

    [2001 PAMI] PCA versus LDA

    [2001] Nonlinear component analysis as a kernel eigenvalue problem

    [2002] A Tutorial on Principal Component Analysis

    [2009] A Tutorial on Principal Component Analysis

    [2011] Robust Principal Component Analysis

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    14. Random Forest

     随机森林

    [2001 ML] Random Forests

    15. RANSAC

     随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

    [2009 BMVC] Performance Evaluation of RANSAC Family

    16. Singular Value Decomposition

     对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇Book Chapter

    [2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    17. Sparse Representation

     这里主要是Proceeding of IEEE上的几篇文章

    [2009 PAMI] Robust Face Recognition via Sparse Representation

    [2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

    [2010 PIEEE] Dictionaries for Sparse Representation Modeling

    [2010 PIEEE] It's All About the Data

    [2010 PIEEE] Matrix Completion With Noise

    [2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

    [2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

    [2011 SPM] Directionary Learning

    18. Support Vector Machines

    [1998] A Tutorial on Support Vector Machines for Pattern Recognition

    [2004] LIBSVM A Library for Support Vector Machines

    19. Wavelet

     在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。 Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。
     说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。

    [1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

    [1996 PAMI] Image Representation using 2D Gabor Wavelet

    [1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS

    [1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

    [2000 TCE] The JPEG2000 still image coding system_ an overview

    [2002 TIP] The curvelet transform for image denoising

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

    [2003 TIP] The finite ridgelet transform for image representation

    [2005 TIP] Sparse Geometric Image Representations With Bandelets

    [2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

    [2010 SPM] The Curvelet Transform



    四、 图像处理与分析

     本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

    1. Bilateral Filter

     Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

    [1998 ICCV] Bilateral Filtering for Gray and Color Images

    [2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

    2. Color

     如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

    [1991 IJCV] Color Indexing

    [2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval

    [2001 PAMI] Color invariance

    [2002 IJCV] Statistical Color Models with Application to Skin Detection

    [2003] A review of RGB color spaces

    [2007 PR]A survey of skin-color modeling and detection methods

    Gamma.pdf

    GammaFAQ.pdf

    3. Compression and Encoding

     个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

    [2005 IEEE] Trends and perspectives in image and video coding

    4. Contrast Enhancement

     对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

    [2002 IJCV] Vision and the Atmosphere

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I

    [2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

    [2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement

    5. Deblur (Restoration)

     图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了可执行文件。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

    [1972] Bayesian-Based Iterative Method of Image Restoration

    [1974] an iterative technique for the rectification of observed distributions

    [1990 IEEE] Iterative methods for image deblurring

    [1996 SPM] Blind Image Deconvolution

    [1997 SPM] Digital image restoration

    [2005] Digital Image Reconstruction - Deblurring and Denoising

    [2006 Siggraph] Removing Camera Shake from a Single Photograph

    [2008 Siggraph] High-quality Motion Deblurring from a Single Image

    [2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

    6. Dehazing and Defog

     严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2这位003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

    [2008 Siggraph] Single Image Dehazing

    [2009 CVPR] Single Image Haze Removal Using Dark Channel Prior

    [2011 PAMI] Single Image Haze Removal Using Dark Channel Prior

    7. Denoising

     图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion

    [1992] Nonlinear total variation based noise removal algorithms

    [1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion

    [1995 TIT] De-noising by soft-thresholding

    [1998 TIP] Orientation diffusions

    [2000 TIP] Adaptive wavelet thresholding for image denoising and compression

    [2000 TIP] Fourth-order partial differential equations for noise removal

    [2001] Denoising through wavelet shrinkage

    [2002 TIP] The Curvelet Transform for Image Denoising

    [2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time

    [2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image

    [2009 TIP] Is Denoising Dead

    8. Edge Detection

     边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

    [1980] theory of edge detection

    [1983 Canny Thesis] find edge

    [1986 PAMI] A Computational Approach to Edge Detection

    [1990 PAMI] Scale-space and edge detection using anisotropic diffusion

    [1991 PAMI] The design and use of steerable filters

    [1995 PR] Multiresolution edge detection techniques

    [1996 TIP] Optimal edge detection in two-dimensional images

    [1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation

    [2003 PAMI] Statistical edge detection_ learning and evaluating edge cues

    [2004 IEEE] Edge Detection Revisited

    [2004 PAMI] Design of steerable filters for feature detection using canny-like criteria

    [2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

    [2011 IVC] Edge and line oriented contour detection State of the art

    9. Graph Cut

     基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

    [2000 PAMI] Normalized cuts and image segmentation

    [2001 PAMI] Fast approximate energy minimization via graph cuts

    [2004 PAMI] What energy functions can be minimized via graph cuts

    10. Hough Transform

     虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

    [1986 CVGIU] A Survey of the Hough Transform

    [1989] A Comparative study of Hough transform methods for circle finding

    [1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization

    [1997 PR] Extraction of line features in a noisy image

    [2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

    11. Image Interpolation

     图像插值,偶尔也用得上。一般来说,双三次也就够了

    [2000 TMI] Interpolation revisited

    12. Image Matting

     也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

    [2008 Fnd] Image and Video Matting A Survey

    [2008 PAMI] A Closed-Form Solution to Natural Image Matting

    [2008 PAMI] Spectral Matting

    13. Image Modeling

     图像的统计模型。这方面有一本专门的著作Natural Image Statistics

    [1994] The statistics of natural images

    [2003 JMIV] On Advances in Statistical Modeling of Natural Images

    [2009 IJCV] Fields of Experts

    [2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures

    14. Image Quality Assessment

     在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

    [2004 TIP] Image quality assessment from error visibility to structural similarity

    [2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality

    15. Image Registration

     图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

    [1992 MIA] Image matching as a diffusion process

    [1992 PAMI] A Method for Registration of 3-D shapes

    [1992] a survey of image registration techniques

    [1998 MIA] A survey of medical image registration

    [2003 IVC] Image registration methods a survey

    [2003 TMI] Mutual-Information-Based Registration of Medical Survey

    [2011 TIP] Hairis registration

    16. Image Retrieval

     图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在商业界,比如淘淘搜。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

    [2000 PAMI] Content-based image retrieval at the end of the early years

    [2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

    [2002] Content-Based Image Retrieval Systems A Survey

    [2008] Content-Based Image Retrieval-Literature Survey

    [2010] Plant Image Retrieval Using Color,Shape and Texture Features

    [2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

    CBIR Chinese

    fundament of cbir

    17. Image Segmentation

     图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

    [2004 IJCV] Efficient Graph-Based Image Segmentation

    [2008 CVIU] Image segmentation evaluation A survey of unsupervised methods

    [2011 PAMI] Contour Detection and Hierarchical Image Segmentation

    18. Level Set

     大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

    [1995 PAMI] Shape modeling with front propagation_ a level set approach

    [2001 JCP] Level Set Methods_ An Overview and Some Recent Results

    [2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking

    [2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation

    [2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors

    [2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation

    19. Pyramid

     其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

    [1983] The Laplacian Pyramid as a Compact Image Code

    20. Radon Transform

     Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

    [1993 PAMI] Image representation via a finite Radon transform

    [1993 TIP] The fast discrete radon transform I theory

    [2007 IVC] Generalised finite radon transform for N×N images

    21. Scale Space

    展开全文
  • 数字图像处理与计算机视觉VC++与MATLAB实现实例源代码
  • 图像处理与计算机视觉:基础_经典以及最近发展,图像处理与计算机视觉:基础_经典以及最近发展,
  • 截至2012年-图像处理与计算机视觉基础总结
  • 图像处理与计算机视觉 基础经典与最近发展 作者是 杨晓冬
  • 图像处理与计算机视觉算法及应用教程与源码.zip ,好资源分享出来,大家一起学习。 声明:仅供学习使用,如有版权问题,请联系我删除。
  • 图像处理与计算机视觉算法及应用 第2版 (高清完整版) pdf 扫描版
  • 图像处理与计算机视觉算法及应用(第2版)》介绍了最新的算法,包括基于内容搜索中的2D视觉方法和使用显卡作为图像处理计算工具等。对于软件工程师和开发人员、高级程序员、图形程序员、科学家,以及其他需要高度...
  • 图像处理与计算机视觉:基础,经典以及最近发展 https://blog.csdn.net/dcraw/article/details/7617891 图像处理与计算机视觉:基础,经典以及最近发展(1)序 图像处理与计算机视觉:基础,经典以及最近发展(2...

    图像处理与计算机视觉:基础,经典以及最近发展

    https://blog.csdn.net/dcraw/article/details/7617891

    图像处理与计算机视觉:基础,经典以及最近发展(1)序

    图像处理与计算机视觉:基础,经典以及最近发展(2)图像处理与计算机视觉相关的书籍

    图像处理与计算机视觉:基础,经典以及最近发展(3)计算机视觉中的信号处理与模式识别

    图像处理与计算机视觉:基础,经典以及最近发展(4)图像处理与分析

    图像处理与计算机视觉:基础,经典以及最近发展(5)计算机视觉

     

     

    计算机视觉简介:历史、现状和发展趋势

    https://blog.csdn.net/xiangz_csdn/article/details/78628521

    本文由中国科学院自动化研究所胡占义研究员撰写,对计算机视觉40多年的发展历程进行了简要总结,包括:马尔计算视觉理论,主动视觉与目的视觉,多视几何与摄像机自标定,以及基于学习的视觉。在此基础上,对计算机视觉的未来发展趋势给出了一些展望。

     

    1.1 什么是计算机视觉

    正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual perception),视觉认知(visual cognition),图像和视频理解( image and video understanding). 这些概念有一些共性之处,也有本质不同。从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力,就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义,在加上这种广义视觉定义又“包罗万象”,同时也不太符合40多年来计算机视觉的研究状况,所以这种“广义计算机视觉定义”,虽无可挑剔,但也缺乏实质性内容,不过是一种“循环式游戏定义”而已。实际上,计算机视觉本质上就是研究视觉感知问题。视觉感知,根据维科百基(Wikipedia)的定义, 是指对“环境表达和理解中,对视觉信息的组织、识别和解释的过程”。根据这种定义,计算机视觉的目标是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。

    计算机视觉与人工智能有密切联系,但也有本质的不同。人工智能更强调推理和决策,但至少计算机视觉目前还主要停留在图像信息表达和物体识别阶段。“物体识别和场景理解”也涉及从图像特征的推理与决策,但与人工智能的推理和决策有本质区别。应该没有一个严肃的计算机视觉研究人员会认为AlphaGo, AlphaZero 是计算机视觉,但都会认为它们是典型的人工智能内容。

    简言之,计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。从目前的研究现状看,目前还主要聚焦在图像信息的组织和识别阶段,对事件解释还鲜有涉及,至少还处于非常初级的阶段。

    这里需要强调的是,每个人由于背景不同,偏好不同,知识面不同,对同一问题的观点亦会不同,甚至出现大相径庭的局面。上面为笔者对计算机视觉的理解,也许是片面或错误的。如不少人认为“纹理分析”是计算机视觉的一个重要研究方向,笔者不敢苟同。另外,很多场合,人们把“图像处理”也认为是“计算机视觉”,这也是不恰当的。图像处理是一门独立的学科,图像处理研究图像去噪、图像增强等内容,输入为图像,输出也是图像。计算机视觉利用图像处理技术进行图像预处理,但图像处理本身构不成计算机视觉的核心内容。

    这里顺便说一下,目前很多人对“感知”和“认知”不加区分,给读者带来不必要的困惑和误解。在不少场合下,经常会见到有些“视觉专家”把“认知”和“推理与决策”(reasoning and decision)作为平行概念使用,这事实上是不太严谨的。根据“维基百科”,“认知”是指通过感觉(senses)、经历 (experience)和思考(thoughts)来获取知识(knowledge)和进行理解(understanding)的思维过程(mental process)。认知包括:知识形成(knowledge),注视(attention),记忆(memory),推理(reasoning),问题求解(problem solving)、决策( decision making)以及语言生成(language production)等。所以,“感知”与“认知”有区别,推理和决策是典型的认知过程,是认知的重要组成部分,它们之间是包含关系,不是平行关系。

     

    1.2  计算机视觉发展的四个主要阶段

    尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说, 1982年马尔( David Marr )《视觉》(Marr, 1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分. 物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)” 服务。正像著名的认知心理学家J.J. Gibson 所言,视觉的主要功能在于“适应外界环境,控制自身运动”。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

    计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即: 马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这4项主要内容进行简要介绍。

     

    1.2.1 马尔计算视觉(Computational Vision)

    现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。

    马尔的计算视觉分为三个层次: 计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算( Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。

    1)计算理论(Computational Theory)

    计算理论需要明确视觉目的, 或视觉的主要功能是什么。上世纪70年代,人们对大脑的认识还非常粗浅,目前普遍使用的非创伤型成像手段,如功能核磁共振(FMRI)等,还没有普及。所以,人们主要靠病理学和心理学结果来推断生理功能。即使目前,人们对“视觉的主要功能”到底是什么,也仍然没有定论。如最近几年,MIT的 DiCarlo等人提出了所谓的“目标驱动的感知信息建模”方法(Yamins &DiCarlo et al. 2016a)。他们猜测,猴子IT区(IT: interiortemporal cortex, 物体识别区)的神经元对物体的响应(neuronal responses)“可以通过层次化的卷积神经网络”(HCNN: Hierarchical Convolutional Neural Networks )来建模。他们认为,只要对HCNN在图像物体分类任务下进行训练,则训练好的HCNN 可以很好定量预测IT 区神经元的响应(Yamins et al. 2014, 2016b)。由于仅仅“控制图像分类性能”对IT神经元响应(群体神经元对某一输入图像物体的响应,就是神经元对该物体的表达或编码)进行定量预测,所以他们将这种框架称之为“目标驱动的框架”。目标驱动的框架提供了一种新的比较通用的建模群体神经元编码的途径,但也存在很大的不足。能否真正像作者所言的那样,仅仅靠“训练图像分类的HCNN”就可以定量预测神经元对图像物体的响应,仍是一个有待进一步深入研究的课题。

    马尔认为视觉不管有多少功能,主要功能在于“从视网膜成像的二维图像来恢复空间物体的可见三维表面形状”,称之为“三维重建”(3D reconstruction)。而且,马尔认为,这种重建过程不是天生就有的,而是可以通过计算完成的。J.J. Gibson 等心理学家,包括格式塔心里学学派( Gestalt psychology),认为视觉的很多功能是天生就有的。可以想想,如果一种视觉功能与生具有,不可建模,就谈不上计算,也许就不存在今天的“计算机视觉”这门学科了。

    那么,马尔的计算理论是什么呢?这一方面,马尔在其书中似乎并不是介绍得特别具体。他举了一个购买商品的例子,说明计算理论的重要性。如商店结账要用加法而不是乘法。试想如果用乘法结账,每个商品1元钱,则不管你购买多少件商品,你仅仅需要付一元钱。

    马尔的计算理论认为,图像是物理空间在视网膜上的投影,所以图像信息蕴含了物理空间的内在信息,因此,任何计算视觉计算理论和方法都应该从图像出发,充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说,马尔的视觉计算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。因为从数学的观点看,仅仅从图像出发,很多视觉问题具有“歧义性”,如典型的左右眼图像之间的对应问题。如果没有任何先验知识,图像点对应关系不能唯一确定。不管任何动物或人,生活的环境都不是随机的,不管有意识或无意识,时时刻刻都在利用这些先验知识,来解释看到的场景和指导日常的行为和行动。如桌子上放一个水杯的场景,人们会正确地解释为桌子上放了一个水杯,而不把他们看作一个新物体。当然,人类也会经常出错,如大量错觉现象。从这个意义上来说,让计算机来模仿人类视觉是否一定是一条好的途径也是一个未知的命题。飞机的飞行需要借助空气动力学知识,而不是机械地模仿鸟如何飞。

    2)表达和算法(Representationand Algorithm)

    识别物体之前,不管是计算机还是人,大脑(或计算机内存)中事先要有对该物体的存储形式,称之为物体表达(object representation). 马尔视觉计算理论认为,物体的表达形式为该物体的三维几何形状。马尔当时猜测,由于人在识别物体时与观察物体的视角无关,而不同视角下同一物体在视网膜上的成像又不同,所以物体在大脑中的表达不可能是二维的,可能是三维形状,因为三维形状不依赖于观察视角。另外,当时病理学研究发现,有些病人无法辨认“茶杯”,但可以毫无困难地画出茶杯的形状,因此马尔觉得,这些病人也佐证了他的猜测。从目前对大脑的研究看,大脑的功能是分区的。物体的“几何形状”和“语义”储存在不同的脑区。另外,物体识别也不是绝对地与视角无关,仅仅在一个比较小的变化范围内与视角无关。所以,从当前的研究看,马尔的物体的“三维表达”猜测基本上是不正确的,至少是不完全正确的,但马尔的计算理论仍具有重要的理论意义和应用价值。

    简言之,马尔视觉计算理论的“物体表达”,是指“物体坐标系下的三维形状表达”。注意,从数学上来说,一个三维几何形状,选取的坐标系不同,表达函数亦不同。如一个球体,如果以球心为坐标原点,则球面可以简单表达为:x^2+y^2+z^2=1。 但如果观测者在x轴上2倍半径处观测,则可见球面部分在观测者坐标系下的方程为:x=2-sqrt(1-y^2-z^2)。由此可见,同一物体,选用的坐标系不同,表达方式亦不同。马尔将“观测者坐标系下的三维几何形状表达”称之为“2.5维表达”,物体坐标系下的表达为“三维表达”。所以,在后续的算法部分,马尔重点研究了如何从图像先计算“2.5维表达”,然后转化为“三维表达”的计算方法和过程。

    算法部分是马尔计算视觉的主体内容。马尔认为,从图像到三维表达,要经过三个计算层次:首先从图像得到一些基元(primal sketch), 然后通过立体视觉(stereopsis)等模块将基元提升到2.5维表达,最后提升到三维表达。

    下图总结给出了马尔视觉计算理论的算法流程:

     

    马尔计算理论中算法的三个计算层次

     

    由上图所示,首先从图像提取边缘信息(二阶导数的过零点),然后提取点状基元(blob, 线状基元(edge)和杆状基元 (bar), 进而对这些初级基元(raw primal sketch)组合形成完整基元(full primal sketch),上述过程为视觉计算理论的特征提取阶段。在此基础上,通过立体视觉和运动视觉等模块,将基元提升到2.5维表达。最后,将2.5维表达提升到三维表达。在马尔的《视觉》一书中,重点介绍了特征提取和2.5维表达对应的计算方法。在2.5维表达部分,也仅仅重点介绍了立体视觉和运动视觉部分。由于当双眼(左右相机)的相互位置已知时(计算机视觉中称之为相机外参数),立体视觉就转化为“左右图像点的对应问题”(image point correspondence), 所以,马尔在立体视觉部分重点介绍了图像点之间的匹配问题,即如何剔除误匹配,并给出了对应算法。

    立体视觉等计算得到的三维空间点仅仅是在“观测者坐标系下的坐标”,是物体的2.5维表示。如何进一步提升到物体坐标系下的三维表示,马尔给出了一些思路,但这方面都很粗泛。如确定物体的旋转主轴等等,这部分内容,类似于后来人们提出的“骨架模型”(skeleton model)构造.

    需要指出的是,马尔的视觉计算理论是一种理论体系。在此体系下,可以进一步丰富具体的计算模块,构建“通用性视觉系统”(general vision system)。只可惜马尔(Jan.15,1945 ~ Nov.17,1980 )1980年底就因白血病去世,包括他的《视觉》一书,也是他去世后出版的。马尔的英年早逝,不能说不是计算机视觉界的一大损失。由于马尔的贡献,所以二年一度的国际计算机视觉大会(ICCV: International Conference on Computer Vision)设有马尔奖(MarrPrize),作为会议的最佳论文奖。另外,在认知科学领域,也设有马尔奖,因为马尔对认知科学也有巨大的贡献。以同一人名在不同领域设立奖项,实属罕见,可见马尔对计算机视觉的影响有多深远。正如S. Edelman 和 L. M. Vaina 在《 International Encyclopedia of the Social & Behavioral Sciences 》中对马尔的评价那样,“马尔前期给出的集成数学和神经生物学对大脑理解的三项工作,已足以使他在任何情况下在英国经验主义二个半世纪的科学殿堂中占有重要的一席,…, 然而,他进一步提出了更加有影响的计算视觉理论”。所以,从事计算机视觉研究的人员对马尔计算视觉不了解,实在是一件比较遗憾的事。

     

    1.2.2 昙花一现的主动和目的视觉

    很多人介绍计算机视觉时,将这部分内容不作为一个单独部分加以介绍,主要是因为“主动视觉和目的视觉”并没有对计算机视觉后续研究形成持续影响。但作为计算机视觉发展的一个重要阶段,这里还是有必要予以介绍一下。

    上世纪80年代初马尔视觉计算理论提出后,学术界兴起了“计算机视觉”的热潮。人们想到的这种理论的一种直接应用就是给工业机器人赋予视觉能力,典型的系统就是所谓的“基于部件的系统”(parts-based system)。然而,10多年的研究,使人们认识到,尽管马尔计算视觉理论非常优美,但“鲁棒性”(Robustness)不够,很难想人们预想的那样在工业界得到广泛应用。这样,人们开始质疑这种理论的合理性,甚至提出了尖锐的批评。

    对马尔计算视觉理论提出批评最多的有二点:一是认为这种三维重建过程是“纯粹自底向上的过程”(pure bottom-up process),缺乏高层反馈(top-down feedback);二是“重建”缺乏“目的性和主动性”。由于不同的用途,要求重建的精度不同,而不考虑具体任务,仅仅“盲目地重建一个适合任何任务的三维模型”似乎不合理。

    对马尔视觉计算理论提出批评的代表性人物有:马里兰大学的 J. Y. Aloimonos;宾夕法尼亚大学的R. Bajcsy和密西根州立大学的A. K. Jaini。 Bajcsy 认为,视觉过程必然存在人与环境的交互,提出了主动视觉的概念(active vision). Aloimonos认为视觉要有目的性,且在很多应用,不需要严格三维重建,提出了“目的和定性视觉”(purpose and qualitative vision) 的概念。 Jain 认为应该重点强调应用,提出了“应用视觉”( practicing vision)的概念。上世纪80年代末到90年代初,可以说是计算机视觉领域的“彷徨”阶段。真有点“批评之声不绝,视觉之路茫茫”之势。

    针对这种情况,当时视觉领域的一个著名刊物(CVGIP: Image Understanding)于1994年组织了一期专刊对计算视觉理论进行了辩论。首先由耶鲁大学的M. J. Tarr和布朗大学的M. J.Black写了一篇非常有争议性的观点文章(Tarr & Black, 1994),认为马尔的计算视觉并不排斥主动性,但把马尔的“通用视觉理论”(general vision)过分地强调“应用视觉”是“短见”(myopic)之举。通用视觉尽管无法给出严格定义,但“人类视觉”是最好的样板。这篇观点文章发表后,国际上20多位著名的视觉专家也发表了他们的观点和评论。大家普遍的观点是,“主动性”“目的性”是合理的,但问题是如何给出新的理论和方法。而当时提出的一些主动视觉方法,一则仅仅是算法层次上的改进,缺乏理论框架上的创新,另外,这些内容也完全可以纳入到马尔计算视觉框架下。所以,从1994年这场视觉大辩论后,主动视觉在计算机视觉界基本没有太多实质性进展。这段“彷徨阶段”持续不长,对后续计算机视觉的发展产生的影响不大,犹如“昙花一现”之状。

    值得指出的是,“主动视觉”应该是一个非常好的概念,但困难在于“如何计算”。 主动视觉往往需要“视觉注视”(visual attention),需要研究脑皮层(cerebral cortex)高层区域到低层区域的反馈机制,这些问题,即使脑科学和神经科学已经较20年前取得了巨大进展的今天,仍缺乏“计算层次上的进展”可为计算机视觉研究人员提供实质性的参考和借鉴。近年来,各种脑成像手段的发展,特别是 “连接组学”(Connectomics)的进展,可望为计算机视觉人员研究大脑反馈机制提供“反馈途径和连接强度”提供一些借鉴。

     

    1.2.3 多视几何和分层三维重建(Multiple View Geometry and Stratified 3D Reconstruction)

    上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

    多视几何的代表性人物首数法国INRIA的O. Faugeras ( Faugeras O, 1993), 美国GE 研究院的R.Hartely (现已回到了澳大利亚国立大学)和英国牛津大学的 A. Zisserman。应该说,多视几何的理论于2000年已基本完善。 2000 年Hartley 和Zisserman 合著的书 (Hartley & Zisserman 2000) 对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000),5 千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。

    1)多视几何( Multiple View Geometry)

    由于图像的成像过程是一个中心投影过程(perspective projection),所以“多视几何”本质上就是研究射影变换下图像对应点之间以及空间点与其投影的图像点之间的约束理论和计算方法的学科(注意:针孔成像模型(The pinhole camera model)是一种中心投影, 当相机有畸变时,需要将畸变后的图像点先校正到无畸变后才可以使用多视几何理论)。计算机视觉领域,多视几何主要研究二幅图像对应点之间的对极几何约束(epipolar geometry), 三幅图像对应点之间的三焦张量约束(tri-focal tensor),空间平面点到图像点,或空间点为平面点投影的多幅图像点之间的单应约束(homography)等。在多视几何中,射影变换下的不变量,如绝对二次曲线的像(The image of the absolute conic),绝对二次曲面的像(Theimage of the absolute quadric), 无穷远平面的单应矩阵(infinite homography),是非常重要的概念,是摄像机能够自标定的“参照物”。由于这些量是无穷远处“参照物”在图像上的投影,所以这些量与相机的位置和运动无关(原则上任何有限的运动不会影响无限远处的物体的性质),所以可以用这些“射影不变量”来自标定摄像机。关于多视几何和摄像机自标定的详细内容,可参阅Hartley 和Zisserman 合著的书(Hartley & Zisserman,2000).

    总体上说,多视几何就其理论而言,在射影几何中不能算新内容。Hartley, Faugeras,  Zissermann等将多视几何理论引入到计算机视觉中,提出了分层三维重建理论和摄像机自标定理论,丰富了马尔三维重建理论,提高了三维重建的鲁棒性和对大数据的适应性,有力推动了三维重建的应用范围。所以,计算机视觉中的多视几何研究,是计算机视觉发展历程中的一个重要阶段和事件。

    多视几何需要射影几何(projectivegeometry)的数学基础。射影几何是非欧几何,涉及平行直线相交,平行平面相交等抽象概念,表达和计算要在“齐次坐标”(homogeneous coordinates)下进行,这给“工科学生”带来不小的困难。所以,大家要从事这方面的研究,一定要先打好基础,至少要具备必要的射影几何知识。否则,做这方面的工作,无异于浪费时间。

    2)分层三维重建( Stratified 3D Reconstruction)

    所谓的分层三维重建,如下图所示,就是指从多幅二维图像恢复欧几里德空间的三维结构时,不是从图像一步到欧几里德空间下的三维结构,而是分步分层地进行。即先从多幅图像的对应点重建射影空间下的对应空间点(即射影重建:projective reconstruction),然后把射影空间下重建的点提升到仿射空间下(即仿射重建:affine reconstruction),最后把仿射空间下重建的点再提升到欧几里德空间(或度量空间: metric reconstruction)(注:度量空间与欧几里德空间差一个常数因子。由于分层三维重建仅仅靠图像进行空间点重建,没有已知的“绝对尺度”,如“窗户的长为1米”等,所以从图像仅仅能够把空间点恢复到度量空间)。

     

     

    这里有几个概念需要解释一下。以空间三维点的三维重建为例,所谓的“射影重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“射影变换”。所谓的“仿射重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“仿射变换”。所谓的“度量重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“相似变换”。

    由于任何一个视觉问题最终都可以转化为一个多参数下的非线性优化问题,而非线性优化的困难在于找到一个合理的初值。由于待优化的参数越多,一般来说解空间越复杂,寻找合适的初值越困难,所以,如果一个优化问题如能将参数分组分步优化,则一般可以大大简化优化问题的难度。分层三维重建计算上的合理性正是利用了这种“分组分步”的优化策略。以三幅图像为例,直接从图像对应点重建度量空间的三维点需要非线性优化16个参数(假定相机内参数不变,5个相机内参数,第二幅和第三幅图像相对于第一幅图像的相机的旋转和平移参数,去掉一个常数因子,所以5+2×(3+3)-1=16), 这是一个非常困难的优化问题。但从图像对应点到射影重建需要“线性”估计22个参数,由于是线性优化,所以优化问题并不困难。从射影重建提升到仿射重建需要“非线性”优化三个参数(无穷远平面的3个平面参数),而从仿射重建提升到度量重建需要“非线性”优化5个参数(摄像机的5个内参数)。因此,分层三维重建仅仅需要分步优化3个和5个参数的非线性优化问题,从而大大减小了三维重建的计算复杂度。

    分层三维重建的另一个特点是其理论的优美性。射影重建下,空间直线的投影仍为直线,二条相交直线其投影直线仍相交,但空间直线之间的平行性和垂直性不再保持。仿射重建下可以保持直线的平行性,但不能保持直线的垂直性。度量重建既可以保持直线之间的平行线,也可以保持垂直性。在具体应用中,可以利用这些性质逐级提升重建结果。

    分层三维重建理论可以说是计算机视觉界继马尔计算视觉理论提出后又一个最重要和最具有影响力的理论。目前很多大公司的三维视觉应用,如苹果公司的三维地图,百度公司的三维地图,诺基亚的Streetview, 微软的虚拟地球,其后台核心支撑技术的一项重要技术就是分层三维重建技术。

    3)摄像机自标定(Cameraself-calibration)

    所谓摄像机标定,狭义上讲,就是确定摄像机内部机械和光电参数的过程,如焦距,光轴与像平面的交点等。尽管相机出厂时都标有一些标准参数,但这些参数一般不够精确,很难直接在三维重建和视觉测量中应用。所以,为了提高三维重建的精度,需要对这些相机内参数(intrinsic parameters)进行估计。估计相机的内参数的过程,称为相机标定。在文献中,有时把估计相机在给定物体坐标系下的坐标,或相机之间相互之间的位置关系,称为相机外参数(extrinsic parameters)标定。但一般无明确指定时,相机标定就是指对相机内参数的标定。

    相机标定包含二方面的内容:“成像模型选择”和“模型参数估计”。相机标定时首先需要确定“合理的相机成像模型”,如是不是针孔模型,有没有畸变等。目前关于相机模型选择方面,没有太好的指导理论,只能根据具体相机和具体应用确定。随着相机加工工艺的提高,一般来说,普通相机(非鱼眼或大广角镜头等特殊相机)一般使用针孔成像模型(加一阶或二阶径向畸变)就足以了。其它畸变很小,可以不加考虑。当相机成像模型确定后,进一步需要估计对应的模型参数。文献中人们往往将成像模型参数估计简单地认为就是相机标定,是不全面的。事实上,相机模型选择是相机标定最关键的步骤。一种相机如果无畸变而在标定时考虑了畸变,或有畸变而未加考虑,都会产生大的误差。视觉应用人员应该特别关注“相机模型选择”问题。

    相机参数估计原则上均需要一个“已知三维结构”的“标定参考物”,如平面棋盘格,立体块等。所谓相机标定,就是利用已知标定参考物和其投影图像,在已知成像模型下建立模型参数的约束方程,进而估计模型参数的过程。所谓“自标定”,就是指“仅仅利用图像特征点之间的对应关系,不需要借助具体物理标定参考物,进行模型参数估计的过程”。“传统标定”需要使用加工尺寸已知的标定参考物,自标定不需要这类物理标定物,正像前面多视几何部分所言,使用的是抽象的无穷远平面上的“绝对二次曲线”和“绝对二次曲面”。从这个意义上来说,自标定也需要参考物,仅仅是“虚拟的无穷远处的参考物”而已。

    摄像机自标定需要用到两幅图像之间的约束,如基础矩阵(fundamental matrix), 本质矩阵(essential matrix), 以及三幅图像之间的三焦张量约束等。另外,Kruppa 方程也是一个重要的概念。这些内容是多视几何的重要内容,后续章节将进行详细介绍。

     

    1.2.4 基于学习的视觉(Learning based vision)

    基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习( manifold Learning)为代表的子空间法( subspace method)和目前以深度神经网络和深度学习(deep neural networks and deep learning)为代表的视觉方法。

    1)流形学习(Manifold Learning)

    正像前面所指出的,物体表达是物体识别的核心问题。给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold), 这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。

    流形学习始于2000年在Science 上发表的二篇文章( Tenenbaum et al., 2000) (Roweis & Lawrence 2000)。流形学习一个困难的问题是没有严格的理论来确定内在流形的维度。人们发现,很多情况下流形学习的结果还不如传统的PCA (Principal Component Analysis),LDA( linear DiscriminantAnalysis ), MDS( Multidimensional Scaling)等. 流形学习的代表方法有:LLE(Locally Linear Embedding )(Roweis & Lawrence 2000),Isomap ( Tenenbaum et al., 2000), Laplacian Eigenmaps (Belkin & Niyogi, 2001)等。

    2)深度学习(Deep Learning)

    深度学习( LeCunet al. 2015) 的成功,主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议(CVPR),上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。

    关于深度网络和深度学习,详细内容可参阅相关文献,这里仅仅强调以下几点:

    (1)深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。在基于几何的三维重建中,RANSAC (Random Sample Consensus)等鲁棒外点(误匹配点)剔除模块可以反复调用,而在深度学习中,目前还很难集成诸如RANSAC等外点剔除机制。笔者认为,如果深度网络不能很好地集成外点剔除模块,深度学习在三维重建中将很难与基于几何的方法相媲美,甚至很难在空间视觉中得到有效应用;

    (2) 深度学习在静态图像物体识别方面已经成熟,这也是为什么在ImageNet上的物体分类竞赛已不再举行的缘故;

    (3) 目前的深度网络,基本上是前馈网络(feedforwardNetworks).不同网络主要体现在使用的代价函数不同。下一步预计要探索具有“反馈机制”的层次化网络。反馈机制,需要借鉴脑神经网络机制,特别是连接组学的成果。

    (4) 目前对视频的处理,人们提出了RCNN (Recurrent Neural Networks). 循环( recurrent) 是一种有效的同层作用机制,但不能代替反馈。大脑皮层远距离的反馈(将在生物视觉简介一章介绍)可能是形成大脑皮层不同区域具有不同特定功能的神经基础。所以,研究反馈机制,特别具有“长距离反馈”(跨多层之间)的深度网络, 将是今后研究图像理解的一个重要方向;

    (5)尽管深度学习和深度网络在图像物体识别方面取得了“变革性”成果,但为什么“深度学习”会取得如此好的结果目前仍然缺乏坚实的理论基础。目前已有一些这方面的研究,但仍缺乏系统性的理论。事实上,“层次化”是本质,不仅深度网络,其它层次化模型,如Hmax 模型(Riesenhuber & Poggio,1999) HTM (Hierarchical Temporal memory)模型(George & Hawkins, 2009)存在同样的理论困惑。为什么“层次化结构”( hierarchical structure )具有优势仍是一个巨大的迷。

     

    1.3 计算机视觉的若干发展趋势

    信息科学发展之迅速,对未来10年的发展趋势进行预测,有点“算命”的感觉。 对计算机视觉而言,笔者有以下几点对未来发展的展望:

    (1) 基于学习的物体视觉和基于几何的空间视觉继续“相互独立”进行。深度学习在短时期内很难代替几何视觉。在深度网络中如何引入“鲁棒外点剔除模块”将是一个探索方向,但短时间内估计很难有实质性进展;

    (2) 基于视觉的定位将更加趋向“应用性研究”,特别是多传感器融合的视觉定位技术。

    (3) 三维点云重建技术已经比较成熟,如何从“点云”到“语义”是未来研究重点。“语义重建”将点云重建、物体分割和物体识别同时进行,是三维重建走向实用的前提。

    (4)对室外场景的三维重建,如何重建符合“城市管理规范”的模型是一个有待解决的问题。室内场景重建估计最大的潜在应用是“家庭服务机器人”。 鉴于室内重建的应用还缺乏非常具体的应用需求和驱动,在加上室内环境的复杂性,估计在3-5年内很难有突破性进展。

    (5)对物体识别而言,基于深度学习的物体识别估计将从“通用识别”向“特定领域物体的识别”发展。“特定领域”可以提供更加明确和具体的先验信息,可以有效提高识别的精度和效率,更加具有实用性;

    (6)目前基于RCNN 对视频理解的趋势将会持续;

    (7) 解析深度网络机理的工作具有重大的理论意义和挑战性,鉴于深度网络的复杂性,估计近期很难取得突破性进展;

    (8)具有“反馈机制”的深度网络结构(architecture)研究必将是下一个研究热点。

     

    1.4 几种典型的物体表达理论(Object representation theories)

    正像前面所述,物体表达是计算机视觉的一个核心科学问题。这里,“物体表达理论”与“物体表达模型”需要加以区别。“表达理论”是指文献中大家比较认可的方法。“表达模型”容易误解为“数学上对物体的某种描述”。计算机视觉领域,比较著名的物体表达理论有以下三种:

    1)马尔的三维物体表达

    前面已经介绍过,马尔视觉计算理论认为物体的表达是物体坐标系下的三维表达

    2)基于二维图像的物体表达(View-basedobject representation)

    尽管理论上一个三维物体可以成像为无限多不同的二维图像,但人的视觉系统仅仅可以识别“有限个图像”。鉴于神经科学对于猴子腹部通道(ventral pathway)(注:腹部通道认为是物体识别通道)的研究进展,T. Poggio 等提出了基于图像的物体表达(Poggio & Bizzi, 2004),即对一个三维物体的表达是该物体的一组典型的二维图像(view)。目前,也有人认为 Poggio等的”view”不能狭义地理解为二维图像,也包含以观测者为坐标系下的三维表示,即马尔的2.5维表示(Anzai & DeAngelis,2010)。

    3)逆生成模型表达(Inversegenerative model representation )

    长期以来,人们认为物体识别模型为“鉴别模型”( discriminative model),而不是“生成模型”( generative model )。近期对猴子腹部通道的物体识别研究表明,猴子大脑皮层的IT 区( Inferior Temporal: 物体表达区域)可能在于编码物体及其成像参数(如光照和姿态,几何形状,纹理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知这些参数就可以生成对应图像,所以对这些参数的编码可以认为是逆生成模型表达。逆生成模型表达可以解释为什么深度学习中的Encoder-decoder 网络结( Badrinarayanan et al. 2015) 可以取得比较好的效果,因为Encoder本质上就是图像的逆生成模型。另外,深度学习中提出的“逆图形学”概念( Inverse Graphic)( Kulkarniet al. 2015),从原理上也是一种逆生成模型。逆图形学是指先从图像学习到图像生成参数,然后把同一物体在不同参数下的图像归类为同一物体,通过这种“等变物体识别”(Equivariant recognition) 来达到最终的“不变物体识别”(invariantrecognition)。

    总之,本文对计算机视觉的理论、现状和未来发展趋势进行了一些总结和展望,希望能给读者了解该领域提供一些帮助。特别需要指出的是,这里很多内容也仅仅是笔者的一些“个人观点”和“个人偏好”下总结的一些内容,以期对读者有所帮助但不引起误导。另外,笔者始终认为,任何一门学科的核心关键文献并不多,为了读者阅读方便,所以本文也仅仅给出了一些必要的代表性文献。

     

    Computer Vision计算机视觉相关课程和书籍

    https://blog.csdn.net/j_d_c/article/details/62416724

    展开全文
  • 图像处理与计算机视觉算法及应用-第二版高清带书签
  • 图像处理与计算机视觉算法及应用》这本书的配套源码
  • 图像处理与计算机视觉基础,经典以及最近发展(2012年以前)-附件资源
  • 数字图像处理与计算机视觉DemoC++适合初学者学习
  • 图像处理与计算机视觉算法及应用 内容包括:边缘检测技术,数码形态学,灰阶分割,图像细化,图像还原等等
  • 从《图像处理与计算机视觉算法及应用(第2版)》中可以获得最具价值的图像处理应用,包括数码形态学、图像恢复和字符识别;找到清晰描述最新技术的真实世界的应用,同时省去人量数学运算所需的冗长时间。
  • 一、 绪论 1. 为什么要写这篇文章 2. 图像处理和计算机视觉的分类:图像处理、...二、 图像处理与计算机视觉相关的书籍 1. 数学 2. 信号处理 3. 模式识别 4. 图像处理与计算机视觉的书籍推荐 5. 小结 三、...

    一、 绪论

    1. 为什么要写这篇文章

    2. 图像处理和计算机视觉的分类:图像处理、图像分析和计算机视觉

    3. 图像处理和计算机视觉开源库以及编程语言选择:C/C++、Matlab

    4. 本文的特点和结构,以及适合的对象

     

    二、 图像处理与计算机视觉相关的书籍

    1. 数学

    2. 信号处理

    3. 模式识别

    4. 图像处理与计算机视觉的书籍推荐

    5. 小结

     

    三、 计算机视觉中的信号处理与模式识别

    1. Boosting 

    2. Clustering

    3. Compressive Sensing 

    4. Decision Trees 

    5. Dynamical Programming

    6. Expectation Maximization

    7. Graphical Models

    8. Hidden Markov Model

    9. Independent Component Analysis

    10. Information Theory

    11. Kalman Filter

    12. Pattern Recognition and Machine Learning

    13. Principal Component Analysis

    14. Random Forest

    15. RANSAC

    16. Singular Value Decomposition

    17. Sparse Representation

    18. Support Vector Machines

    19. Wavelet

     

    四、 图像处理与分析

    1. Bilateral Filter

    2. Color

    3. Compression and Encoding

     4. Contrast Enhancement

    5. Deblur (Restoration)

    6. Dehazing and Defog

    7. Denoising

    8. Edge Detection

     9. Graph Cut

    10. Hough Transform

    11. Image Interpolation

    12. Image Matting

    13. Image Modeling

    14. Image Quality Assessment

    15. Image Registration

    16. Image Retrieval

    17. Image Segmentation

    18. Level Set

    19. Pyramid

    20. Radon Transform

    21. Scale Space

    22. Snake

    23. Super Resolution

    24. Thresholding

    25. Watershed 

     

    五、 计算机视觉

    1. Active Appearance Models

    2. Active Shape Models

    3. Background modeling and subtraction

    4. Bag of Words

    5. BRIEF

    6. Camera Calibration and Stereo Vision

    7. Color and Histogram Feature

    8. Deformable Part Model

    9. Distance Transformations

    10. Face Detection

    11. Face Recognition

    12. FAST

    13. Feature Extraction

    14. Feature Matching

    15. Harris

    16. Histograms of Oriented Gradients

    17. Image Distance

    18. Image Stitching

    19. KLT

    20. Local Binary Pattern

    21. Low-Level Vision

    22. Mean Shift

    23. MSER

    24. Object Detection

    25. Object Tracking

    26. OCR

    27. Optical Flow

    28. Particle Filter

    29. Pedestrian and Human detection

    30. Scene Classification

    31. Shadow Detection

    32. Shape

    33. SIFT

    34. SLAM

    35. Texture Feature

    36. TLD

    37. Video Surveillance

    38. Viola-Jones

     

    六、 结束语

    https://blog.csdn.net/ding977921830/article/details/46992127

     

    转载于:https://www.cnblogs.com/2008nmj/p/9170280.html

    展开全文
  • 图像处理与计算机视觉算法及应用(第2版)的配套代码。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,480
精华内容 1,392
关键字:

图像处理与计算机视觉