图像处理小论文

2018-01-11 19:03:30 wzy_zju 阅读数 5230


      一: 去雾方面的论文

           1、Efficient Image Dehazing with Boundary Constraint and Contextual Regularization,下载地址:

           http://lab.datatang.com/1984DA173065/WebFile/DocWeb/2014012053738649.pdf

 

          效果:

    

     2、 Fast image dehazing using guided joint bilateral filter

         http://graphvision.whu.edu.cn/papers/cgi2012.pdf

      效果:

      3、Fast Haze Removal Algorithm for Surveillance Video   这是一篇讲如何对视频进行快速去雾的文章,没涉及到具体的算法,不过可以看看。

     二、双边滤波

   1、Recursive Bilateral Filtering ,这个在杨庆雄的网站里有下载:http://www.cs.cityu.edu.hk/~qiyang/,他的个人网站下还有好多其他的论文和算法下载。

        该算法速度非常快,但是效果有点瑕疵。

    三、单幅图像的高光去除

  1、Real-Time Specular Highlight Removal Using Bilateral Filtering

      2、Real-time highlight removal using intensity ratio

      3、Separating Reflection Components of Textured Surfaces Using a Single Image

    四、水下图像增强

  1、Enhancing Underwater Images and Videos by Fusion,这是一篇通过融合技术来增强图像的文章,虽然不是很复杂,但是文章的思路应该能广泛应用,这也是我今年重点研究何实现的文章之一。

      下载:http://research.edm.uhasselt.be/~oancuti/Underwater_CVPR_2012/

      效果:

   

 

    如上图所示,该算法还具有较强的去雾能力。

2015-12-29 11:21:24 u013088062 阅读数 32557

  最近有人问我图像处理怎么研究,怎么入门,怎么应用,我竟一时语塞。仔细想想,自己也搞了两年图像方面的研究,做个两个创新项目,发过两篇论文,也算是有点心得,于是总结总结和大家分享,希望能对大家有所帮助。在写这篇教程之前我本想多弄点插图,让文章看起来花哨一点,后来我觉得没必要这样做,大家花时间沉下心来读读文字没什么不好,况且学术和技术本身也不是多么花哨的东西。

  一、图像处理的应用

  这个其实没什么好说的,一种技术的应用价值不是靠嘴上说,而是要看有多少人去搞,很简单的道理。其实我觉得判断一项技术有没有价值、有多大价值的最简单最有效的方法就是看有多少人在研究它。如果大家都在研究,那必然说明它很火,至少目前很火,以后的几年里依然还会火。因此,如果你不确定图像处理是不是有价值,那就查查全国图像处理工程师的数量就行了。

当然这里还是简单提一下。如果你真的只想问“图像处理有什么用?”,相信百度会给出比我更专业的答案。不过作为图像处理的行内人,我还是从几个基本的点来具体说一下。

  1、身份认证

  21世纪是刷脸的时代,这一点无可厚非。首先是银行,据说重庆的银行已经使用了人脸识别的验证系统来进行辅助的认证。其次是门禁系统,以前是指纹,虹膜,现在就是人脸。指纹、虹膜的识别虽然准确,但是有侵犯性,采集的过程中有侵犯性,验证的过程中也有侵犯性,反正让谁天天录指纹(采集指纹信息),用眼睛瞪摄像头(采集虹膜信息),谁都会觉得不舒服的,况且手还会脱皮。相比之下,人脸的识别就方便多了,拍张照片(采集人脸信息)谁都不会介意。最后是监控,一个摄像头所拍的监控能从不同的角度记录成百上千的人(比如车站等密集场所的监控),让警察去辨认将是一个浩大的工程,要是系统能够自动判别人员信息,无疑会给办案带来极大方便。

  2、监控安防

  安防监控可以说是图像处理领域最有潜力的应用领域。如今各个城市都在疯狂的安装监控摄像头,全国时刻都有无数的摄像头在录监控,但是安防监控的后端处理却没跟上。什么是后端处理,简单的说就是监控录像的视频处理。注意这里的视频处理可就不止包含人脸识别了,还有行人检测、异常检测、显著性检测、协同跟踪等。人脸识别之前说了,这里简单说说行人异常检测。图像处理中的行人异常检测在外行人眼中是一个非常有魔力的东西。毕竟让摄像头通过监控视频就能判断出当前画面中谁是好人谁是坏人(当然直接分为好人和坏人还是太武断了),在一般思维中貌似是不可能的。但是请不要忽略这样一个事实,就是目前大部分监控视频的分析处理都是由人工来完成的,警察破案时经常动不动就调出最近几天的监控视频,然后从头看到尾,其工程量之大可想而知。也正是这样才催生了人们对智能监控方面的研究,因为有这方面的实际需求。当然我们的视频分析程序不会直接给出诸如“好人or坏人”这样的武断而片面的判断结果。就当前的技术水平而言,能够统计当下监控画面中的人数(行人检测)、定位他们的人脸(人脸检测)、识别他们的身份(人脸识别)、判别他们的表情(表情识别)、检测他们的动作(异常检测),这就已经够了。这样以后人们就不会再面对长达几十甚至上百个小时的监控视频发呆,而是直接分析计算机给出的数据,当前画面中有多少人、都是谁、谁的动作可疑等。总之,接下来智能监控发展会很迅速,因为需求很迫切。

  3、深度学习(Deep Learning)

  通俗的说一句,“图像处理是深度学习应用的天堂”。深度学习这个概念可能有人不太熟悉,大家可以自行百度,我这里给出一个相对通俗的解释:“如果你不知道什么叫深度学习,就想想《终结者》中的T-800”。当然这句话不是我说的,是出自业界的一位大牛之口。当然这可能有点小片面,不过深度学习确实是公认的新一代人工智能的基础。

  这里举两个例子。一是谷歌的人工大脑项目。谷歌公司可以说是深度学习方面的牵头企业了,其在2012年公布的谷歌大脑项目,动用了1.6万个计算节点,训练数周,得到的人工智能模型能够自主识别猫脸图像,为新一代人工智能开辟了道路,之后微软深度学习研究院、百度深度学习研究院等机构都开始大量投入,各个高校也搞得风声水起,原因很简单,大家都知道它会火。

  第二就是图像识别方面的竞赛。最有权威的就是ImageNet竞赛。大家在一个拥有上千万张,上千类别的图像数据库上训练和测试自己的算法,比拼识别率。近几年来,摘得桂冠的一直都是深度学习模型,确切的说是卷积神经网络。更多有关ImageNet历年的竞赛信息大家可以自行百度。

  说道深度学习在图像处理的应用,不得不提中国的汤晓鸥教授,说他是国内深度学习的领头羊也不为过。他提出的DeepID人脸识别算法(一共分为三代),在一些大规模人脸数据库上的正确率(若LFW库)已经达到了99.75%,单纯从数字上讲的话可以说已经超越了人类的识别率,为此汤教授还开办了公司,开发FaceSDK(虽然还没有公布)。不过拿计算机和人脑相比本身就是不合理的,各有所长嘛。不过可见DeepLearning在图像识别领域的强大威力。至于深度学习与图像处理的关系这里就不用多说了,谷歌大脑识别的是图像,深度学习竞赛用的是图像,DeepID识别的还是图像人脸,虽然深度学习在其他方面诸如语音识别等也有应用,在图像处理依然是其主要的应用领域。

  二、图像处理研究工具

  图像处理的研究分为算法研究和应用两个部分。用到的主要编程语言有Matlab、C/C++、Python等,原因很简单,它们都有很多相应的第三方库,不用我们从零开始编程。

  1、Matlab

  MathWork公司的Matlab软件可以说是算法研究的利器,它的强大之处在于其方便快捷的矩阵运算能力和图形仿真能力,单从简洁性和封装性来说,确实完爆其他语言。但高度封装必然会相应的损失一部分灵活性,况且Matlab严格的讲更像是一个工具,而非一门编程语言。顺便提一句,它在2015年编程语言排行榜中位于第20名,仅次于IOS开发的Objective-C。

  对于算法研究人员(尤其是高校的硕士博士),首选工具自然是matlab,因为它简便快捷,封装性好,更重要的是全世界几乎所有的算法大牛、精英教授都会首先公布对应的Matlab源码,然后在逐步改写成其他语言进行实际应用。所以,如果你想做图像处理方面的研究,Matlab是必须掌握的,而且是熟练掌握。当你有一些想法需要验证时,最好明智的先用matlab编写出来测试。如果你上来就用看似高大上的C++来实验,不仅错误BUG一大堆,到头来可能效果还不佳,就算效果好,时间也会耽搁不少,毕竟算法开发还是要快的,这样才能赶在别人之前发论文。总之,只要是接触图像算法,终究逃不过Matlab,就算你是软件开发的,不研发算法,但总得能看懂别人的Matlab算法吧。

  对于之前没怎么接触过Matlab与图像处理的人,在这里推荐一本相关的书籍《MATLAB图像处理实例详解(附光盘)》。这本书对于Matlab图像处理入门还是很有帮助的。记得我当时刚上研究生时就靠两本书入门的,一是冈萨雷斯的《数字图像处理》,二是这本《MATLAB图像处理实例详解》。不过这里友情提示,在看这类教程(不仅仅是Matlab)时千万不要试图去记忆所有的工具函数,这种做法是十分愚蠢的。正确的做法是根据自己的情况快速翻阅这类工具书,可以找出里面的有实际意义的源码来敲一敲练练手感,至于具体的工具函数,只需要知道Matlab提供了这方面的功能就行了,以后用到了再回来查,或者谷歌百度。我觉得在入门阶段,最重要的不是看了多少书,听了多少课,而是尽快自己敲出一段代码,运行出结果,来建立自信和成就感,这才是支持我们走下去的最实在的动力。记得我当时看了没多久就自己敲了一个蹩脚的车牌检测的Matlab程序,现在看来真是漏洞百出,不过当时我真的很兴奋,很有成就感,觉得自己能干这行,对于初学者来说,这种感受弥足珍贵。

  2、OpenCv

  Opencv是Intel公司开发的C++图像处理工具包,形象的理解为就是C++版的Matlab。当初Intel公司开发这个工具包的初衷也是方便大家共享,希望大家能够在一个共同架构的基础上共同建造摩天大楼,而不是各自在自己的地基上盖平房。与Matlab不同,Opencv是面向开发的,稳定性好,异常处理机制周全,但有一点需要注意,由于Opencv是开源的,那么如果你在项目中直接调用了它的API,那就意味着你的项目也必须开源。因此在真正的产品开发过程中,往往需要从Opencv库里面挖代码,而不是直接调用,幸好Intel公司允许我们看源码,自己编译一把就可以了。

  说道C++和Opencv,有一个问题不得不提,那就是深度学习领域大名鼎鼎的Caffe框架。这是一个典型的基于C++和OpenCv的深度学习框架,由谷歌深度学习团队、“谷歌大脑”负责人之一贾扬清学者编写,并公布了源码。如今各个深度学习机构都在大量使用这个框架进行研究。

  这里同样对推荐两本关于Opencv方面的教程。一本是CSDN博客大牛毛星云写的《OpenCV3编程入门》,这是它根据自己多年的博客整理成的书,很详细,很典型的一本教程,介绍了OpenCv中相对前沿的知识。我翻看过这本教程,中规中矩,里面的代码通俗易懂,尤其适合初学者。当然大家同样要注意不要犯了死读书的毛病,只看它的功能,敲代码练手感即可,不要试图记忆API函数。重要的工具用多了自然会记住,不重要的工具记住了也没用。

  这里推荐的第二本书是《图像识别与项目实践――VC++、MATLAB技术实现》,这本书是一本偏向于工程应用的书,我之所以推荐它是因为它给出了很多有新意、能运行的代码。其中里面有一个项目让我印象很深,是一个车牌检测的实例。简单描述一下:由于车牌中的字符数是固定的,因此它通过判断横向区域笔画的跳变数以及笔画宽度来定位车牌区域。这个想法让人耳目一新,并且它还给出了详细代码,我也亲身试验过,效果还不错。

  这里同样再强调一下,就是一定要尽早入手写程序,建立自信和成就感。我当时学OpenCv正好用它开发了一个人脸性别识别的系统,是一个本科大学生创新计划的需求,效果还可以。

  3、Python

  Python在今年12月份的编程语言排行榜中名列第5,增长迅速。可以说Python已经逐渐成为当下脚本语言的新标准。Python在图像处理算法方面除了其自身简洁的编程优势外,还得益于两个重要的Python类库——Numpy和Theano。

  Numpy是Python的线性代数库,对于矩阵运算能提供很好的支持,并且能够在此基础上进行很多机器学习相关算法的开发仿真,这里推荐一本受到大家广泛认可的书《机器学习实战》,我最近也正在看这本书,里面对好多机器学习领域的经典算法,小到KNN,大到SVM,都给出了详细的介绍以及代码实现(Python版)。Theano是Python的机器学习库,能够方便的实现深度学习(例如卷积神经网络CNN)算法,网上很多对于DeepID算法的复现都是用的这个库。

  人觉得单从图像处理的角度评价的话,Python并没有前面两个工具(Matlab和OpenCv)应用广泛,不过作为通用的脚本语言,我觉得每个程序员都应该去了解了解它,毕竟俗话说没有烂的编程语言,只有烂程序员。我在学Python时第一个自己写的程序就是微信打飞机的小程序,在我的博客中有详细的教程,虽然是参照小甲鱼的《零基础入门学习Python》视频教程写的,但还是蛮有成就感的。

  三、图像处理研究方法

  我觉得,图像处理研究主要可以分为三个部分:基础概念、基本思想、算法研究。

  1、基础概念

  所谓基础概念,就是图像处理里最基本的知识,比如什么是图像?什么是像素?什么是彩色图像等等。没有一个明确的界限来划定什么是基础概念什么是高级知识,因人而异。了解图像处理的基础知识,有一本书是必读的,就是冈萨雷斯编写的、阮秋琦翻译的《数字图像处理》。这本书已经作为图像处理领域的经典教材使用了三十多年,我自己也把这本书看了好几遍,每一遍都会有新的体会。我觉得每一个搞图像的都应该熟读这本书。书中除了有几章内容在讲小波变换、模式识别等相对抽象的内容外,其他内容相对都是很基础的,本科生水平就能看懂。而且我建议要尽早看这本书,如果是研究生尽量在进入课题之前就看一遍,因为这样一本经典的书在进入课题之后可能就没时间看了,以后也顶多是查阅而已。我当初就是在大四的寒假看完了这本书,以后在图像入门的过程中就显得轻松很多。看完这本书,哪怕是只看前几章,明白了什么是图像(二维或者三维矩阵)、什么是像素、彩色图和灰度图、颜色空间、图像滤波、图像噪声、图像频域变换等概念,将来在进行更深一步的研究的话就会方便很多了。

  2、基本思想

  刚开始想把这部分内容命名为“基本算法”,意在介绍图像处理中的一些基本算法,后来仔细想想决定不这么写,因为图像处理是一个非常大的概念,图像处理不等于人脸识别,也不等于模式识别,直接介绍诸如图像处理基本算法之类的内容很容易写成空话,没有什么实际意义。读者有兴趣的话可以直接谷歌百度“图像处理十大经典算法”,上面有我想说的内容。

  万变不离其宗,算法是死的,重在思想。举个例子,我个人是主攻模式识别方向,在这个方向判断一个学生是否入门有一个非常简单的方法,就是“如果你能把图像很自然的想象成高维空间中的一个点”,那就说明在模式识别方面入门了,可以对图像进行分类了。当然标准不是唯一,在其他领域如目标检测也会有其他的判断标准,总之我们要对图像进行处理,那么图像就不再只是图像,它可能会演变成各种不同形式的概念,可能是点,可能是面,还可能是一个坐标空间。在目标跟踪的经典算法粒子滤波中,将一个个的小图像块看做一个个粒子;在子空间理论中,将一系列图像放在一起构建一个成分主空间(例如主成分分析PCA算法等等。,我不会详细介绍这些算法,说多了就显得抽象老套,但我要说的是我们一定要把图像本身理解好,它是一个图像,是一个矩阵,是一个信息的容器,是一种数据的表现形式,图像不一定都必须在视觉上有意义(比如频域的图像)。

  总之图像处理的基本思想还是要立足于图像本身,要深度到图像内部结构中,思维要灵活。我当时做本科毕设时,怎么也不知道图像和高维空间中的点之间有什么对应关系,后来总算有一天,突然就明白了,这也就是所谓的量变产生质变。总之一定要多想,多总结,主动去钻研,才能够真正领悟一些东西。最基本的东西往往蕴藏着深奥的道理,无论你现在多牛多厉害,都不能放掉最本源的东西。多想想图像是什么,有什么本质属性,你可能无法得到准确的答案,但肯定能得到一些有用的感悟(有点像哲学问题了)。

  3、算法研究

  算法研究应该是图像处理的核心工作,尤其是各大高校的博士硕士。这里我并不想谈那些高大上的算法,我更想说的是一些算法研究的一些基础的东西,比如说一些基础课程,比如说矩阵运算。

  研究图像处理的算法,离不开数学。在这里我建议图像处理方面的硕士一定要上两门课:《泛函分析》以及《最优化算法》,有的学校已经将这两门课列为了研究生阶段的必修课程。这两门可可以说是图像处理(至少是模式识别)的基础。我当初没上过最优化算法,但后来也自己补上了,不然真的是寸步难行。至于泛函我当时听课的时候也不是很懂,但是在之后的研究过程中发现很多图像处理的基本知识基本理论都和泛函分析中枯燥的定理如出一辙,没办法,有的东西本身就是枯燥的干货,学着费力,缺它不行。

  其次我想说的是矩阵运算。图像就是矩阵,图像处理就是矩阵运算。大家为什么都喜欢用Matlab,就是因为它的矩阵运算能力实在是太强大,在Matlab的世界中任何变量都是矩阵。同样OpenCv之所以能流行,不仅仅是因为它良好的封装性,也是因为它的矩阵格式,它定义了Mat基础类,允许你对矩阵进行各种操作。Python也不例外,它的Numpy就是一个专门的线性代数库。

  真正在图像编程过程中,那些看着高大上的API函数归根到底都是工具,查查手册就能找到,真正核心还是在算法,算法是由公式编写的,公式的单元是变量,而图像届的变量就是矩阵。所以,熟练去操作矩阵,求秩、求逆、最小二乘,求协方差,都是家常便饭。所以,如果你有幸能上《矩阵分析》这门课,一定要把它看懂,那里面都是干货。

  四、小结

  总之,图像处理就是一个典型的门槛低、厅堂深的领域。不需要太多基础,学过线性代数,会一点编程就够了;但是那些算法却深不可测,是个消耗功夫的活儿。在写这篇教程时我说的很直白,就像和大家对话一样,想到什么说什么。在最后我想说两句题外话,就是不仅仅针对图像处理,对于其他新技术的入门学习也是一样,尽快迈出第一步,尽快去建立自信和成就感,让自己有勇气走下去,然后缺什么补什么就行了。我觉得真正让人望而却步的往往不是技术本身,而是我们对自身的不自信。唯有果断开工,才能战胜心魔。


如果觉得这篇文章对您有所启发,欢迎关注我的公众号,我会尽可能积极和大家交流,谢谢。


2018-08-06 10:00:49 Luochenhui0508 阅读数 1846

自己视野狭小,不敢说全部,只是把自己熟悉的方向中的部分经典文章列出来了。经典的论文,读得怎么透都不过分。有人说关于配准的文章太多了,其实我也不太关注这方面,不过由于它们引用率都比较高,就都列出来了,不过在zip包里一篇都没有。不关注这方面的可以无视之。

文档和论文下载地址:

http://iask.sina.com.cn/u/2252291285/ish?folderid=775855

 

1990年之前

Peter Burt, Edward Adelson.

The Laplacian Pyramid as A Compact Image Code.

虽说这个Laplacian Pyramid是有冗余的,但使用起来非常简单方便,对理解小波变换也非常有帮助。这位Adelson是W.T.Freeman的老板,都是大牛.

J Canny

A Computational Approach to Edge Detection

经典不需要解释。在Sonka的书里面对这个算法也有比较详细的描述。

S Mallat.

A theory for multiresolution signal decomposition: The wavelet representation

Mallat的代表作。

M Kass, A Witkin, D Terzopoulos.

Snakes: active contour models

Deformable model的开山鼻祖。

RM HARALICK

Textural Features for Image Classification

这三篇都是关于纹理特征的,虽然过去这么多年了,现在在检索和识别中依然很有用。

RM HARALICK

Statistical and structural approaches to texture

 

Tamura等

Texture features corresponding to visual perception

 

A P Dempster, N M Laird, D B Rubin. 1977

Maximum likelihood from incomplete data via the EM algorithm 

EM算法在计算机视觉中有着非常重要的作用

L Rabiner. 1989

A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition

HMM同样是计算机视觉必须掌握的一项工具

B D Lucas, T Kanade

An iterative image registration technique with an application to stereo- vision

Lucas

J R Quinlan

Induction of decision trees

偏模式识别和机器学习一点

 

1990年

P Perona, J Malik.

PAMI

Scale-space and edge detection using anisotropic diffusion

关于scale space最早的一篇论文之一,引用率很高

T Lindeberg

Scale-space for discrete signals.

Lindeberg关于scale space比较早的一篇,后续还有好几篇

anzad, A.; Hong, Y.H.

Invariant image recognition by Zernike moments

Zernike moment,做过模式识别或者检索的应该都知道这个东东

 

1991年

W Freeman, E Adelson.

The design and use of steerable filters

Freeman最早的一篇力作,也是我读的第一篇学术论文。现在Freeman在MIT风生水起,早已是IEEE Fellow了

Michael J. Swain , Dana H. Ballard

Color Indexing.

google scholar上引用将近五千次

MA Turk

CVPR

Face recognition using eigenfaces

 

 

1992年

L G Brown.

A survey of image registration techniques.

比较早的一篇关于配准的综述了

 

1993年

S G Mallat, Z Zhang.

Matching pursuits with time-frequency dictionaries

Mallat另一篇关于小波的文章,不研究小波的可以无视之

L Vincent.

Morphological grayscale reconstruction in image analysis: Applications and efficient algorithms

 

DP Huttenlocher

Comparing images using the Hausdorff distance

Google scolar上引用2200多次

 

1994年

J Shi, C Tomasi.

Good feature to track.

Tomasi这个名字还会出现好几次,真的很牛

Linderberg

Scale-space theory in computer vision

 

J L Barron, D J Fleet, S S Beauchemin.

Performance of optical flow techniques.

 

 

1995年

R Malladi, J Sethian, B Vemuri.

Shape Modeling with Front Propagation: A Level Set Approach

Level set的经典文章

TF COOTES

Active Shape Models-Their Training and Application

ASM

MA Stricker

Similarity of color images

颜色检索相关

C Cortes, V Vapnik.

Support-vector networks.

SVM在计算机视觉中也有着非常重要的地位

 

1996年

T MCINERNEY.

Deformable models in medical image analysis: A survey

活动模型的一篇较早的综述

Tai Sing Lee

Image Representation Using 2D Gabor Wavelets

Google引用也有近千次

Amir Said,  A. Pearlman

A New, Fast, and Efficient Image Codec Based on Set Partitioning in Hierarchical Tree

SPIHT。图像压缩领域与EBCOT齐名的经典算法。

L P Kaelbling, M L Littman, A W Moore.

Reinforcement learning: A survey

机器学习里面的一篇综述,引用率比较高,就列在这了。

B. S. Manjunath and W. Y. Ma

Texture features for browsing and retrieval of image data

检索的文章比较多,其实它们的应用不仅仅是检索。只要是需要提取特征的地方,检索里面的方法都可以用到

 

comparing images using color coherence vectors

检索中的CCV方法

 

Image retrieval using color and shape

关于形状特征后面有一篇综述

 

1997年

V Caselles, R Kimmel, G Sapiro.

Geodesic active contours

活动轮廓模型的一个小分支

R E Schapire, Y Freund, P Bartlett, W S Lee.

Boosting the Margin: A New Explanation for the Effectiveness of Voting Methods.

Schapire和Freund发明了Adaboost,给计算机视觉带来了不少经典算法

F Maes, D Vandermeulen, G Marchal, P Suetens.

Multimodality image registration by maximization of mutual information

互信息量配准

E Osuna, R Freund, F Girosi.

Training support vector machines: An application to face detection.

SVM在人脸检测中的应用。不过人脸检测最经典的方法应该是Viola-Jones

J Huang, S Kumar, M Mitra, W-J Zhu, R Zabih.

Image indexing using color correlogram

Color correlogram,检索中的又一个颜色特征。和前面的CCV以及颜色矩特征基本上覆盖了所有的颜色特征。

Y Freund, R Schapire.

A decisiontheoretic generalization of on-line learning and an application to boosting

Adaboost的经典文章

 

1998年

1998年是图像处理和计算机视觉经典文章井喷的一年。大概从这一年开始,开始有了新的趋势。由于竞争的加剧,一些好的算法都先发在会议上了,先占个坑,等过一两年之后再扩展到会议上。

T Lindeberg

Feature detection with automatic scale selection

Linderberg的scale space到此为止基本结束了。在一些边缘提取,道路或者血管检测中,scale space确实是一种很不错的工具

C J C Burges.

A tutorial on support vector machines for pattern recognition.

使用svm的话,这篇文章应该是必读的了。比95年那篇原始文章引用率还高

M Isard, A Blake.

CONDENSATION – Conditional Density Propagation for Visual Tracking

Tracking中的经典文章了

L Page, S Brin, R Motwani, T Winograd

The PageRank citation ranking: bringing order to the web

这篇文章应该不属于CV的范畴,鉴于作者的大名鼎鼎,暂且列在这

C Tomasi, R Manduchi.

Bilateral filtering for gray and color images.

做过图像滤波平滑去噪或者HDR的应该都知道Bilateral filter。原理非常非常简单,简单到一个公式就可以概括这篇文章,简单到实在无法扩充到期刊。这也是Tomasi第二次出现了。一直很纳闷,这个很直观的思想在这之前怎么就从来没人提呢。

C Xu, J L Prince.

Snakes, shapes and gradient vector flow.

终于碰到中国人写的文章了,很荣幸还是校友。GVF是snake和level set领域的重要分支和方法

Wim Sweldens.

The lifting scheme: A construction of second generation wavelets.

第二代小波。真正让小波有了实用价值,在JPEG2000中就采用的提升小波。个人更喜欢的是下一篇,简单易懂,字体也大

Daubechies Wim Sweldens

Factoring wavelet transforms into lifting steps

另一位作者也很牛,小波十讲的作者

H A Rowley, S Baluja, T Kanade.

Neural Network-based Face Detection.

做人脸的应该是必看的了。不做人脸的话应该可以不用看吧

J B A Maintz, M A Viergever.

A survey of medical image registration.

关于图像配准的另一篇综述

T F Cootes, G J Edwards, C J Taylor.

Active Appearance Models

AAM

 

1999年

D Lowe.

 

Object Recognition from Local Scale-invariant Features

大名鼎鼎的SIFT,后面有一篇IJCV上的Journal版本,更全面一点。

R E Schapire.

A brief Introduction to Boosting

还是boosting

D M Gavrila.

The visual analysis of human movements: a survey

综述文章的引用一般都比较高

Y Rui, T S Huang, S F Change.

Image retrieval: current techniques, promising directions, and open issues

TSHuang小组对检索的一个总结

J K Aggarwal, Q Cai.

Human motion analysis: a review

人体运动分析的一个综述

 

2000年

世纪之交,各种综述都出来了

J Shi, J Malik.

Normalized Cuts and Image Segmentation

NCuts的引用率相当高,Jianbo Shi也因为这篇文章成为计算机视觉界引用率最高的作者之一

Z Zhang.

A Flexible New Technique for Camera Calibration

张正友的关于摄像机标定的经典短文

A K Jain, R P W Duin, J C Mao.

Statistical pattern recognition: a review.

统计模式识别综述,这一年pami上两篇很有名的综述之一。在这里推荐Web写的Statistical Pattern Recognition第三版,相当不错,网上有电子版。

C Stauffe

Learning Patterns of Activity Using Real-Time Tracking

搜TLD的时候发现这篇文章引用率也很高,两千多次。还没来得及读。

D Taubman.

High performance Scalable Image Compression With EBCOT

EBCOT,JPEG2000中的算法

A W M Smeulders, M Worring, S Santini, A Gupta, R Jain.

Content-based image retrieval at the end of the early years

在世纪之交对图像检索的一篇很权威的综述。感觉在这之后检索的研究也没那么热了。不过在工业界热度依旧,各大网上购物平台,比如淘宝, 亚马逊,京东等都在做这方面的研发,衣服检索是一个很不错的应用点。

M Pantic, L J M Rothkrantz.

Automatic analysis of facial expressions: the state of the art.

 

N Paragios, R Deriche.

Geodesic active contours and level sets for the detection and tracking of moving objects

使用level set做跟踪

Y Rubner, C Tomasi, L Guibas.

TThe earth mover’s distance as a metric for image retrieval.

EMD算法。Tomasi再次出现

 

PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

依然是检索特征

 

2001年

Paul Viola, Michael J Jones.

Robust real-time object detection

这是一篇很牛的文章,在人脸检测上几乎成了标准。比较坑爹的是,号称发在IJCV2001上,但怎么找也找不到。应该是IJCV2004年的那篇“Robust real-time face detection”吧。

他们在这一年另一篇比较出名的文章是在CVPR上的“Rapid Object Detection using a Boosted Cascade of Simple Features”这篇才是04年那篇著名文章的会议版。

Y Boykov, Kolmogorov.

An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision.

俄罗斯人在graph cut领域开始发力了

T Moeslund, E Granum.

A Survey of Computer Vision Based Human Motion Capture

人体运动综述

T F Chan, L Vese.

Active contours without edges.

Snake和level set领域的经典文章

A M Martinez, A C Kak.

PCA versus LDA

PCA也是计算机视觉中非掌握不可的工具。LDA在模式识别中有很重要的地位

BS Manjunath

Color and texture descriptors

 

颜色和纹理的描述子,在识别中很有用

 

2002年

D Comaniciu, P Meer.

Mean shift: A robust approach toward feature space analysis

Mean shift的经典文章。前两天发现Comaniciu已经是IEEE Fellow了

Ming-Husan Yang, David J Kriegman, Narendra Ahuja.

Detecting Faces in Images: A Survey.

人脸检测综述,引用率想不高都难

R Hsu, M Abdel-Mottaleb.

Face Detection in Color Images.

依然是人脸检测,名字都起得这么霸气

J-L Starck, E J Candès, D L Donoho.

The curvelet transform for image denoising.

Geometrical wavelet中的一篇代表作。其他的如ridgelet, contourlet, bandelet等在这里就不赘述了。研究这方面的很容易找到这方面的经典文献。个人以为不研究这方面的看了后对自己的研究也不会有多大启发。曾经以为这个方向会很火,到最后还是没火起来。 我觉得原因可能是现在存储和传输能力的大大提高,使得对压缩的需求没有那么大了,这方面的研究自然就停滞了,就如同JPEG2000没有成气候一样。

 

Shape matching and object recognition using shape contexts

Shape context。用形状匹配达到目标识别目的。这方面最经典的文章了。随后后续也有一些这方面的文章,但基本都是很小的改进或者应用。作者提供了原码,可以在matlab上运行看看效果。

N Paragios, R Deriche.

Geodesic active regions and level set methods for supervised texture segmentation

 

 

Statistical Color Models with Application to Skin Detection

 

 

A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking

particle filter的一个综述

 

2003年

W Zhao, R Chellappa, P J Phillips, A Rosenfeld.

Face recognition: A literature survey.

人脸检测的综述

J Sivic, A Zisserman.

Video Google: A text retrieval approach to object matching in videos. I

好像是Visual words的起源文章。引用率很高,先列出来再看。

D Comaniciu, V Ramesch, P Meer.

Kernel-Based Object Tracking.

基于核的跟踪。

B Zitová, J Flusser.

Image registration methods: A survey.

又一篇图像配准的综述。做图像配准的比较有福气,综述很多

K Mikolajczyk, C Schmid.

A performance evaluation of local descriptors

比较各种描述子的,包括SIFT

M J Wainwright, M I Jordan.

Graphical models, exponential families, and variational inference

乔丹的名气太大,不露露脸说不过去

J Portilla, V Strela, M Wainwright, E Simoncelli.

Image denoising using scale mixtures of gaussians in the wavelet domain.

图像去噪,小波变换,混合高斯

Robert E. Schapire

The Boosting Approach to Machine Learning  An Overview

boosting作者自己写的综述,自然值得一看。

 

2004年

 

Lucas-Kanade 20 Years On A Unifying Framework

引用文章摘要的第一句话

Since the Lucas-Kanade algorithm was proposed in 1981 image alignment has become one of the most

widely used techniques in computer vision. Applications range from optical flow and tracking to layered motion, mosaic construction, and face coding.

D G Lowe.

Distinctive image features from scale-invariant keypoints

SIFT,不解释

Chih-Chung Chang, Chih-Jen Lin.

LIBSVM: A library for support vector machines

我实在怀疑引用这篇文章的人是否都看过这篇文章。貌似不看这篇文章也可以使用LIBSVM

Z Wang, A C Bovik, H R Sheikh, E P Simoncelli.

Image quality assessment: From error visibility to structural similarity

图像质量评价,最近Bovik还有一篇类似的文章也刊登在TIP上

Y Ke, R Sukthankar.

Pca-sift: a more distinctive representation for local image descriptors

SIFT的变形

 

Review of shape representation and description techniques

 

 

Efficient Graph-Based Image Segmentation

 

 

2005年

N Dalal, B Triggs.

Histograms of oriented gradients for human detection

HOG 虽然很新,但很经典

A C Berg, T L Berg, J Malik.

Shape matching and object recognition using low distortion correspondences.

还是shape matching

S Roth, M Black.

Fields of experts: A framework for learning image priors.

这篇应该要归结到图像统计特性的范畴吧

Z Tu, X Chen, A L Yuille, S C Zhu.

Image parsing: Unifying segmentation, detection, and recognition.

 

 

Geodesic active regions and level set methods for motion estimation and tracking

 

Chunming Li, Chenyang Xu, Changfeng Gui, and  Martin D. Fox

Level Set Evolution Without Re-initialization: A New Variational Formulation

这篇文章解决了level set中需要不停的重初始化的问题。在2010年的TIP上有一篇Journal版本

Distance Regularized Level Set Evolution and its Application to Image Segmentation

 

A Performance Evaluation of Local Descriptors

前面那篇是会议的,这篇是PAMI上的。比较各种描述子的,包括SIFT

 

2006年

D Donoho.

Compressed sensing

CS 压缩感知 最近很火的一个名词

Greg Welch, Gary Bishop.

An introduction to the Kalman Filter.

kalman滤波

S Lazebnik, C Schmid, J Ponce.

Beyond bags of features: spatial pyramid matching for recognizing natural scene categories

Visual words

Xiaojin Zhu.

Semi-supervised learning literature survey.

 

A Yilmaz, O Javed, M Shah.

Object Tracking: A survey.

tracking的一篇综述

 

Image Alignment and Stitching: A Tutorial

 

 

2007年

 

A Review of Statistical Approaches to Level Set Segmentation: Integrating Color, Texture, Motion and Shape

 

 

The Appearance of Human Skin:

A Survey

 

 

Local Invariant Feature Detectors: A Survey

 

 

2008年

H Bay, A Ess, T Tuytelaars, L V Gool.

SURF: Speeded Up Robust Features

 

K E A van de Sande, T Gevers, C G M Snoek.

Evaluation of Color Descriptors for Object and Scene Recognition

 

M Yang 

A Survey of Shape Feature Extraction Techniques

 

虽然这篇文章的引用率目前来看并不高,但个人认为这是一篇在shape feature方面很不错的文章

P. Felzenszwalb, D. McAllester, D. Ramanan

A Discriminatively Trained, Multiscale, Deformable Part Model

2008年的CVPR,到现在引用已有四百多次,潜力巨大。rosepink提供

 

2009年

J Wright, A Y Yang, A Ganesh, S S Sastry, Ma.

 Robust Face Recognition via Sparse Representation

 

B Settles.

Active learning literature survey

 

 

2010年

2011年

 

Hough Forests for Object Detection, Tracking, and Action Recognition

 

 

Robust Principal Component Analysis?

Candes 和UIUC的Ma Yi等人

 

2012年

Zdenek Kalal, Krystian Mikolajczyk, and Jiri Matas,

Tracking-Learning-Detection

PAMI上的,虽然还没有正式发表,但肯定会火。在作者的主页上有几篇相关的会议文章,demo和code。用到了Lucas-Kanade方法

 

 

 



            </div>
2018-06-10 11:52:22 qq_34565692 阅读数 959
 原文的链接是http://www.iask.sina.com.cn/u/2252291285/ish

         非常感谢原作者杨晓冬辛勤地编写本文章,并愿意共享出来。希望转载本文的各位朋友,注明原作者出处,以尊重原作者。   

一、 绪论

1. 为什么要写这篇文章

       从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,抓住重点来阅读,同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得很一般,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个工作给完善,力求做到尽量全面。


        本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的Introduction和Related work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在参考文献的汪洋大海里。


2. 图像处理和计算机视觉的分类

按照当前流行的分类方法,可以分为以下三部分:
A.图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压      缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。

B.图像分析:对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。


C.计算机视觉:对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。


      关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理->低层视觉(low level vision),图像分析->中间层视觉(middle level vision),计算机视觉->高层视觉(high level vision)。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。


3. 图像处理和计算机视觉开源库以及编程语言选择

       目前在图像处理中有两种最重要的语言:c/c++和matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++和matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。
至于开源库,个人非常推荐OpenCV,主要有以下原因:
(1)简单易入手。OpenCV进入OpenCV2.x的时代后,使用起来越来越简单,接口越来越傻瓜化,越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开 始入手了。


(2)OpenCV有一堆图像处理和计算机视觉的大牛在维护,bug在逐步减少,每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不懂的平台,并提供了对Python的很好的支持。


(3)在OpenCV上可以尝试各种最新以及成熟的技术,而不需要自己从头去写,比如人脸检测(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征检测,聚类,hough变换等等 。而且它还支持各种机器学习方法(SVM,NN,KNN,决策树,Boosting等),使用起来很简单。


(4)文档内容丰富,并且给出了很多示例程序。当然也有一些地方文档描述不清楚,不过看看代码就很清楚了。


(5)完全开源。可以从中间提取出任何需要的算法。


(6)从学校出来后,除极少数会继续在学术圈里,大部分还是要进入工业界。现在在工 业界,c/c++仍是主流,很多公司都会优先考虑熟悉或者精通OpenCV的。事实上,在学术界,现在OpenCV也大有取代matlab之势。以前的demo或者source code,很多作者都愿意给出matlab版本的,然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本,或者自己集成到OpenCV中去,这样能快速提升自己的影响力。
       如果想在图像处理和计算机视觉界有比较深入的研究,并且以后打算进入这个领域工作的话,建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话,肯定可以找到一份满意的工作。


4. 本文的特点和结构,以及适合的对象

    在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。


本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。、


二、 图像处理与计算机视觉相关的书籍

1. 数学

      我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研数学的三个组成部分,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学书目了。

2. 信号处理

    图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

2.1经典信号处理

信号与系统(第2版) Alan V.Oppenheim等著 刘树棠译

离散时间信号处理(第2版) A.V.奥本海姆等著 刘树棠译

数字信号处理:理论算法与实现 胡广书 (编者)

2.2随机信号处理

现代信号处理 张贤达著

统计信号处理基础:估计与检测理论 Steven M.Kay等著 罗鹏飞等译

自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

2.3 小波变换

信号处理的小波导引:稀疏方法(原书第3版) tephane Malla著, 戴道清等译

2.4 信息论

信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译



3. 模式识别

Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

模式识别(英文版)(第4版) 西奥多里德斯著

Pattern Classification (2nd Edition) Richard O. Duda等著

Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

模式识别(第3版) 张学工著

4. 图像处理与计算机视觉的书籍推荐

图像处理,分析与机器视觉 第三版 Sonka等著 艾海舟等译

Image Processing, Analysis and Machine Vision

                ( 附:这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。)

数字图像处理 第三版 冈萨雷斯等著

Digital Image Processing

(附:数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。)

计算机视觉:理论与算法 Richard Szeliski著

Computer Vision: Theory and Algorithm

                (附:微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和                       Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。
                  http://szeliski.org/Book/
                  Multiple View Geometry in Computer Vision 第二版Harley等著
                 引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到中英文版的电子版。)

计算机视觉:一种现代方法 DA Forsyth等著

Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了,还是值得一读。期待第二版

Machine vision: theory, algorithms, practicalities 第三版 Davies著

(附:为数不多的英国人写的书,偏向于工业应用。)

数字图像处理 第四版 Pratt著

Digital Image Processing

(附:写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。)


5. 小结

罗嗦了这么多,实际上就是几个建议:
(1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。
(2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
(3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看



三、 计算机视觉中的信号处理与模式识别

      从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方便,按照字母顺序排的序。

1. Boosting

   Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。
Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与者。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。

[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

[1998] Boosting the margin A new explanation for the effectiveness of voting methods

[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection

[2003] The Boosting Approach to Machine Learning An Overview

[2004 IJCV] Robust Real-time Face Detection



2. Clustering

聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。

[1989 PAMI] Unsupervised Optimal Fuzzy Clustering

[1991 PAMI] A validity measure for fuzzy clustering

[1995 PAMI] On cluster validity for the fuzzy c-means model

[1998] Some New Indexes of Cluster Validity

[1999 ACM] Data Clustering A Review

[1999 JIIS] On Clustering Validation Techniques

[2001] Estimating the number of clusters in a dataset via the Gap statistic

[2001 NIPS] On Spectral Clustering

[2002] A stability based method for discovering structure in clustered data

[2007] A tutorial on spectral clustering

3. Compressive Sensing

最近大红大紫的压缩感知理论。

[2006 TIT] Compressed Sensing

[2008 SPM] An Introduction to Compressive Sampling

[2011 TSP] Structured Compressed Sensing From Theory to Applications

4. Decision Trees

对决策树感兴趣的同学这篇文章是非看不可的了。

[1986] Introduction to Decision Trees

5. Dynamical Programming

动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter

[1990 PAMI] using dynamic programming for solving variational problems in vision

[Book Chapter] Dynamic Programming

6. Expectation Maximization

EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。

[1977] Maximum likelihood from incomplete data via the EM algorithm

[1996 SPM] The Expectation-Maximzation Algorithm

7. Graphical Models

伯克利的乔丹大师的Graphical Model,可以配合这Bishop的PRML一起看。

[1999 ML] An Introduction to Variational Methods for Graphical Models

8. Hidden Markov Model

HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。

[1989 ] A tutorial on hidden markov models and selected applications in speech recognition

[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models

[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

Hmm Chinese book.pdf

9. Independent Component Analysis

同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。

[1999] Independent Component Analysis A Tutorial

[2000 NN] Independent component analysis algorithms and applications

[2000] Independent Component Analysis Algorithms and Applications

10. Information Theory

计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。

[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

[2010] An information theory perspective on computational vision

11. Kalman Filter

这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

[1970] Least-squares estimation_from Gauss to Kalman

[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

[2000] The Unscented Kalman Filter for Nonlinear Estimation

[2001 Siggraph] An Introduction to the Kalman Filter_full

[2003] A Study of the Kalman Filter applied to Visual Tracking

12. Pattern Recognition and Machine Learning

模式识别名气比较大的几篇综述

[2000 PAMI] Statistical pattern recognition a review

[2004 CSVT] An Introduction to Biometric Recognition

[2010 SPM] Machine Learning in Medical Imaging

13. Principal Component Analysis

著名的PCA,在特征的表示和特征降维上非常有用。

[2001 PAMI] PCA versus LDA

[2001] Nonlinear component analysis as a kernel eigenvalue problem

[2002] A Tutorial on Principal Component Analysis

[2009] A Tutorial on Principal Component Analysis

[2011] Robust Principal Component Analysis

[Book Chapter] Singular Value Decomposition and Principal Component Analysis

14. Random Forest

随机森林

[2001 ML] Random Forests

15. RANSAC

随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

[2009 BMVC] Performance Evaluation of RANSAC Family

16. Singular Value Decomposition

对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇Book Chapter

[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

[Book Chapter] Singular Value Decomposition and Principal Component Analysis

17. Sparse Representation

这里主要是Proceeding of IEEE上的几篇文章

[2009 PAMI] Robust Face Recognition via Sparse Representation

[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

[2010 PIEEE] Dictionaries for Sparse Representation Modeling

[2010 PIEEE] It's All About the Data

[2010 PIEEE] Matrix Completion With Noise

[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

[2011 SPM] Directionary Learning

18. Support Vector Machines

[1998] A Tutorial on Support Vector Machines for Pattern Recognition

[2004] LIBSVM A Library for Support Vector Machines

19. Wavelet

在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。
说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。

[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

[1996 PAMI] Image Representation using 2D Gabor Wavelet

[1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS

[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

[2000 TCE] The JPEG2000 still image coding system_ an overview

[2002 TIP] The curvelet transform for image denoising

[2003 TIP] Gray and color image contrast enhancement by the curvelet transform

[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

[2003 TIP] The finite ridgelet transform for image representation

[2005 TIP] Sparse Geometric Image Representations With Bandelets

[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

[2010 SPM] The Curvelet Transform



四、 图像处理与分析

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

[1998 ICCV] Bilateral Filtering for Gray and Color Images

[2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

2. Color

如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

[1991 IJCV] Color Indexing

[2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval

[2001 PAMI] Color invariance

[2002 IJCV] Statistical Color Models with Application to Skin Detection

[2003] A review of RGB color spaces

[2007 PR]A survey of skin-color modeling and detection methods

Gamma.pdf

GammaFAQ.pdf

3. Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE] Trends and perspectives in image and video coding

4. Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV] Vision and the Atmosphere

[2003 TIP] Gray and color image contrast enhancement by the curvelet transform

[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II

[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I

[2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

[2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement

5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了可执行文件。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

[1972] Bayesian-Based Iterative Method of Image Restoration

[1974] an iterative technique for the rectification of observed distributions

[1990 IEEE] Iterative methods for image deblurring

[1996 SPM] Blind Image Deconvolution

[1997 SPM] Digital image restoration

[2005] Digital Image Reconstruction - Deblurring and Denoising

[2006 Siggraph] Removing Camera Shake from a Single Photograph

[2008 Siggraph] High-quality Motion Deblurring from a Single Image

[2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2这位003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

[2008 Siggraph] Single Image Dehazing

[2009 CVPR] Single Image Haze Removal Using Dark Channel Prior

[2011 PAMI] Single Image Haze Removal Using Dark Channel Prior

7. Denoising

图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II

[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion

[1992] Nonlinear total variation based noise removal algorithms

[1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion

[1995 TIT] De-noising by soft-thresholding

[1998 TIP] Orientation diffusions

[2000 TIP] Adaptive wavelet thresholding for image denoising and compression

[2000 TIP] Fourth-order partial differential equations for noise removal

[2001] Denoising through wavelet shrinkage

[2002 TIP] The Curvelet Transform for Image Denoising

[2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time

[2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image

[2009 TIP] Is Denoising Dead

8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

[1980] theory of edge detection

[1983 Canny Thesis] find edge

[1986 PAMI] A Computational Approach to Edge Detection

[1990 PAMI] Scale-space and edge detection using anisotropic diffusion

[1991 PAMI] The design and use of steerable filters

[1995 PR] Multiresolution edge detection techniques

[1996 TIP] Optimal edge detection in two-dimensional images

[1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation

[2003 PAMI] Statistical edge detection_ learning and evaluating edge cues

[2004 IEEE] Edge Detection Revisited

[2004 PAMI] Design of steerable filters for feature detection using canny-like criteria

[2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

[2011 IVC] Edge and line oriented contour detection State of the art

【structured forests for fast edge detection】基于结构森林的快速边缘提取是目前最快的快速边缘提取算法。

9. Graph Cut

基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

[2000 PAMI] Normalized cuts and image segmentation

[2001 PAMI] Fast approximate energy minimization via graph cuts

[2004 PAMI] What energy functions can be minimized via graph cuts

10. Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU] A Survey of the Hough Transform

[1989] A Comparative study of Hough transform methods for circle finding

[1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization

[1997 PR] Extraction of line features in a noisy image

[2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

11. Image Interpolation

图像插值,偶尔也用得上。一般来说,双三次也就够了

[2000 TMI] Interpolation revisited

12. Image Matting

也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd] Image and Video Matting A Survey

[2008 PAMI] A Closed-Form Solution to Natural Image Matting

[2008 PAMI] Spectral Matting

13. Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994] The statistics of natural images

[2003 JMIV] On Advances in Statistical Modeling of Natural Images

[2009 IJCV] Fields of Experts

[2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures

14. Image Quality Assessment

在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

[2004 TIP] Image quality assessment from error visibility to structural similarity

[2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality

15. Image Registration

图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

[1992 MIA] Image matching as a diffusion process

[1992 PAMI] A Method for Registration of 3-D shapes

[1992] a survey of image registration techniques

[1998 MIA] A survey of medical image registration

[2003 IVC] Image registration methods a survey

[2003 TMI] Mutual-Information-Based Registration of Medical Survey

[2011 TIP] Hairis registration

16. Image Retrieval

图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在商业界,比如淘淘搜。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

[2000 PAMI] Content-based image retrieval at the end of the early years

[2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

[2002] Content-Based Image Retrieval Systems A Survey

[2008] Content-Based Image Retrieval-Literature Survey

[2010] Plant Image Retrieval Using Color,Shape and Texture Features

[2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

CBIR Chinese

fundament of cbir

17. Image Segmentation

图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

[2004 IJCV] Efficient Graph-Based Image Segmentation

[2008 CVIU] Image segmentation evaluation A survey of unsupervised methods

[2011 PAMI] Contour Detection and Hierarchical Image Segmentation

18. Level Set

大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

[1995 PAMI] Shape modeling with front propagation_ a level set approach

[2001 JCP] Level Set Methods_ An Overview and Some Recent Results

[2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking

[2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation

[2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors

[2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation

19. Pyramid

其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

[1983] The Laplacian Pyramid as a Compact Image Code

20. Radon Transform

Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

[1993 PAMI] Image representation via a finite Radon transform

[1993 TIP] The fast discrete radon transform I theory

[2007 IVC] Generalised finite radon transform for N×N images



21. Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

[1987] Scale-space filtering

[1990 PAMI] Scale-Space for Discrete Signals

[1994] Scale-space theory A basic tool for analysing structures at different scales

[1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection

[1998 IJCV] Feature Detection with Automatic Scale Selection

22. Snake

活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

[1987 IJCV] Snakes Active Contour Models

[1996 ] deformable model in medical image A Survey

[1997 IJCV] geodesic active contour

[1998 TIP] Snakes, shapes, and gradient vector flow

[2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects

[2001 TIP] Active contours without edges

23. Super Resolution

超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002] Example-Based Super-Resolution

[2009 ICCV] Super-Resolution from a Single Image

[2010 TIP] Image Super-Resolution Via Sparse Representation

24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE] OTSU A threshold selection method from gray-level histograms

[2001 JISE] A Fast Algorithm for Multilevel Thresholding

[2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation

25. Watershed

分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations

[2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies


五、 计算机视觉

这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。

1. Active Appearance Models

活动表观模型和活动轮廓模型基本思想来源Snake,现在在人脸三维建模方面得到了很成功的应用,这里列出了三篇最早最经典的文章。对这个领域有兴趣的可以从这三篇文章开始入手。

[1998 ECCV] Active Appearance Models

[2001 PAMI] Active Appearance Models

2. Active Shape Models

[1995 CVIU]Active Shape Models-Their Training and Application

3. Background modeling and subtraction

背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生,demo效果也很好,比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法,他们最大的贡献在于不用EM去做高斯拟合,而是采用了一种迭代的算法,这样就不需要保存很多帧的数据,节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法,把混合高斯模型做到了极致。这种方法效果也很好,而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里,无参数方法(2000 ECCV)和Vibe方法也值得关注。

[1997 PAMI] Pfinder Real-Time Tracking of the Human Body

[1999 CVPR] Adaptive background mixture models for real-time tracking

[1999 ICCV] Wallflower Principles and Practice of Background Maintenance

[2000 ECCV] Non-parametric Model for Background Subtraction

[2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking

[2002 PIEEE] Background and foreground modeling using nonparametric

kernel density estimation for visual surveillance

[2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction

[2004 PAMI] Recursive unsupervised learning of finite mixture models

[2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction

[2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences

4. Bag of Words

词袋,在这方面暂时没有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。

[2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos

[2004 ECCV] Visual Categorization with Bags of Keypoints

[2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories

5. BRIEF

BRIEF是Binary Robust Independent Elementary Features的简称,是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。

[2010 ECCV] BRIEF Binary Robust Independent Elementary Features

[2011 ICCV] ORB an efficient alternative to SIFT or SURF

[2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast

6. Camera Calibration and Stereo Vision

非常不熟悉的领域。仅仅列出了十来篇重要的文献,供以后学习。

[1979 Marr] A Computational Theory of Human Stereo Vision

[1985] Computational vision and regularization theory

[1987 IEEE] A versatile camera calibration technique for

high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses

[1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision

[1988 PIEEE] Ill-Posed Problems in Early Vision

[1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences

[1990 IJCV] Relative Orientation

[1990 IJCV] Using vanishing points for camera calibration

[1992 ECCV] Camera self-calibration Theory and experiments

[1992 IJCV] A theory of self-calibration of a moving camera

[1992 PAMI] Camera calibration with distortion models and accuracy evaluation

[1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis

[1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment

[1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations

[1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system

[2000 PAMI] A flexible new technique for camera calibration

7. Color and Histogram Feature

这里面主要来源于图像检索,早期的图像检测基本基于全局的特征,其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。

[1995 SPIE] Similarity of color images

[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

[1996] comparing images using color coherence vectors

[1997 ] Image Indexing Using Color Correlograms

[2001 TIP] An Efficient Color Representation for Image Retrieval

[2009 CVIU] Performance evaluation of local colour invariants

8. Deformable Part Model

大红大热的DPM,在OpenCV中有一个专门的topic讲DPM和latent svm

[2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model

[2010 CVPR] Cascade Object Detection with Deformable Part Models

[2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models

9. Distance Transformations

距离变换,在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。

[1986 CVGIP] Distance Transformations in Digital Images

[2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey

10. Face Detection

最成熟最有名的当属Haar+Adaboost

[1998 PAMI] Neural Network-Based Face Detection

[2002 PAMI] Detecting faces in images a survey

[2002 PAMI] Face Detection in Color Images

[2004 IJCV] Robust Real-Time Face Detection

11. Face Recognition

不熟悉,简单罗列之。

[1991] Face Recognition Using Eigenfaces

[2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art

[2000] Face Recognition A Literature Survey

[2006 PR] Face recognition from a single image per person A survey

[2009 PAMI] Robust Face Recognition via Sparse Representation

12. FAST

用机器学习的方法来提取角点,号称很快很好。

[2006 ECCV] Machine learning for high-speed corner detection

[2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection

13. Feature Extraction

这里的特征主要都是各种不变性特征,SIFT,Harris,MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征,王永明与王贵锦合著的《图像局部不变性特征与描述》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。

[1989 PAMI] On the detection of dominant points on digital curves

[1997 IJCV] SUSAN—A New Approach to Low Level Image Processing

[2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions

[2004 IJCV] Scale & Affine Invariant Interest Point Detectors

[2005 PAMI] A performance evaluation of local descriptors

[2006 IJCV] A Comparison of Affine Region Detectors

[2007 FAT] Local Invariant Feature Detectors - A Survey

[2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors

14. Feature Matching

Fua课题组在今年PAMI上的一篇文章,感觉还不错

[2012 PAMI] LDAHash Improved Matching with Smaller Descriptors

15. Harris

虽然过去了很多年,Harris角点检测仍然广泛使用,而且基于它有很多变形。如果仔细看了这种方法,从直观也可以感觉到这是一种很稳健的方法。

[1988 Harris] A combined corner and edge detector

16. Histograms of Oriented Gradients

HoG方法也在OpenCV中实现了:HOGDescriptor。

[2005 CVPR] Histograms of Oriented Gradients for Human Detection

NavneetDalalThesis.pdf

17. Image Distance

[1993 PAMI] Comparing Images Using the Hausdorff Distance

18. Image Stitching

图像拼接,另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中,有专门一章是讨论这个问题。这里的两面文章一篇是综述,一篇是这方面很经典的文章。

[2006 Fnd] Image Alignment and Stitching A Tutorial

[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

19. KLT

KLT跟踪算法,基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章,最后一篇给出了OpenCV实现KLT的细节。

[1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version

[1994 CVPR] Good Features to Track

[2004 IJCV] Lucas-Kanade 20 Years On A Unifying Framework

Pyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV

20. Local Binary Pattern

LBP。OpenCV的Cascade分类器也支持LBP,用来取代Haar特征。

[2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns

[2004 ECCV] Face Recognition with Local Binary Patterns

[2006 PAMI] Face Description with Local Binary Patterns

[2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features

21. Low-Level Vision

关于Low level vision的两篇很不错的文章

[1998 TIP] A general framework for low level vision

[2000 IJCV] Learning Low-Level Vision

22. Mean Shift

均值漂移算法,在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上关于Mean Shift的文章,一篇是OpenCV实现的文章。

[1995 PAMI] Mean shift, mode seeking, and clustering

[2002 PAMI] Mean shift a robust approach toward feature space analysis

[2003 CVPR] Mean-shift blob tracking through scale space

[2009 CVIU] Object tracking using SIFT features and mean shift

[2012 PAMI] Mean Shift Trackers with Cross-Bin Metrics

OpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface

23. MSER

这篇文章发表在2002年的BMVC上,后来直接录用到2004年的IVC上,内容差不多。MSER在Sonka的书里面也有提到。

[2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions

[2003] MSER Author Presentation

[2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions

[2011 PAMI] Are MSER Features Really Interesting

24. Object Detection

首先要说的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,后来到新加坡国立任教,极具潜力的一个老师。不幸的是,他和他的妻子都在2000年的新加坡空难中遇难,让人唏嘘不已。

http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006

最后一篇文章也是Fua课题组的,作者给出的demo效果相当好。

[1998 PAMI] Example-based learning for view-based human face detection

[2003 IJCV] Learning the Statistics of People in Images and Video

[2011 PAMI] Learning to Detect a Salient Object

[2012 PAMI] A Real-Time Deformable Detector

25. Object Tracking

跟踪也是计算机视觉中的经典问题。粒子滤波,卡尔曼滤波,KLT,mean shift,光流都跟它有关系。这里列出的是传统意义上的跟踪,尤其值得一看的是2008的Survey和2003年的Kernel based tracking。

[2003 PAMI] Kernel-based object tracking

[2007 PAMI] Tracking People by Learning Their Appearance

[2008 ACM] Object Tracking A Survey

[2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments

[2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition

[2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning

[2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects

26. OCR

一个非常成熟的领域,已经很好的商业化了。

[1992 IEEE] Historical review of OCR research and development

Video OCR A Survey and Practitioner's Guide

27. Optical Flow

光流法,视频分析所必需掌握的一种算法。

[1981 AI] Determine Optical Flow

[1994 IJCV] Performance of optical flow techniques

[1995 ACM] The Computation of Optical Flow

[2004 TR] Tutorial Computing 2D and 3D Optical Flow

[2005 BOOK] Optical Flow Estimation

[2008 ECCV] Learning Optical Flow

[2011 IJCV] A Database and Evaluation Methodology for Optical Flow

28. Particle Filter

粒子滤波,主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。

[1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking

[2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking

[2002 TSP] Particle filters for positioning, navigation, and tracking

[2003 SPM] particle filter

29. Pedestrian and Human detection

仍然是综述类,关于行人和人体的运动检测和动作识别。

[1999 CVIU] Visual analysis of human movement_ A survey

[2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture

[2005 TIP] Image change detection algorithms a systematic survey

[2006 CVIU] a survey of avdances in vision based human motion capture

[2007 CVIU] Vision-based human motion analysis An overview

[2007 IJCV] Pedestrian Detection via Periodic Motion Analysis

[2007 PR] A survey of skin-color modeling and detection methods

[2010 IVC] A survey on vision-based human action recognition

[2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art

30. Scene Classification

当相机越来越傻瓜化的时候,自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。

[2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope

[2001 PAMI] Visual Word Ambiguity

[2007 PAMI] A Thousand Words in a Scene

[2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition

[2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization

31. Shadow Detection

[2003 PAMI] Detecting moving shadows-- algorithms and evaluation

32. Shape

关于形状,主要是两个方面:形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征,用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别,最牛的当属J Malik等提出的Shape Context。

[1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION

[1993 PR] Pattern Recognition by Affine Moment Invariants

[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

[2001 SMI] Shape matching similarity measures and algorithms

[2002 PAMI] Shape matching and object recognition using shape contexts

[2004 PR] Review of shape representation and description techniques

[2006 PAMI] Integral Invariants for Shape Matching

[2008] A Survey of Shape Feature Extraction Techniques



33. SIFT

关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。

[1999 ICCV] Object recognition from local scale-invariant features

[2000 IJCV] Evaluation of Interest Point Detectors

[2003 CVIU] Speeded-Up Robust Features (SURF)

[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

34. SLAM

Simultaneous Localization and Mapping, 同步定位与建图。
SLAM问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。

[2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision

[2007 PAMI] MonoSLAM Real-Time Single Camera SLAM

35. Texture Feature

纹理特征也是物体识别和检索的一个重要特征集。

[1973] Textural features for image classification

[1979 ] Statistical and structural approaches to texture

[1996 PAMI] Texture features for browsing and retrieval of image data

[2002 PR] Brief review of invariant texture analysis methods

[2012 TIP] Color Local Texture Features for Color Face Recognition

36. TLD

Kadal创立了TLD,跟踪学习检测同步进行,达到稳健跟踪的目的。他的两个导师也是大名鼎鼎,一个是发明MSER的Matas,一个是Mikolajczyk。他还创立了一个公司TLD Vision s.r.o. 这里给出了他的系列文章,最后一篇是刚出来的PAMI。

[2009] Online learning of robust object detectors during unstable tracking

[2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints

[2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES

[2012 PAMI] Tracking-Learning-Detection

37. Video Surveillance

前两篇是两个很有名的视频监控系统,里面包含了很丰富的信息量,比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。

[2000 CMU TR] A System for Video Surveillance and Monitoring

[2000 PAMI] W4-- real-time surveillance of people and their activities

[2008 MVA] The evolution of video surveillance an overview

38. Viola-Jones

 Haar+Adaboost的弱弱联手,组成了最强大的利器。在OpenCV里面有它的实现,也可以选择用LBP来代替Haar特征。

[2001 CVPR] Rapid object detection using a boosted cascade of simple features

[2004 IJCV] Robust Real-time Face Detection

六、 结束语


历时一个多月,终于用业余时间把这些资料整理出来了,总算了却了一块心病,也不至于再看着一堆资料发愁了。以后可能会有些小修小补,但不会有太大的变化了。万里长征走完了第一步,剩下的就是理解和消化了。借新浪ishare共享出来,希望能够对你的科研也有一定的帮助。最后简单统计一下各个年份出现的频率。

文章总数:372

2012年: 10

2011年: 20

2010年: 20

2009年: 14

2008年: 18

2007年: 13

2006年: 14

2005年: 9

2004年: 24

2003年: 22

2002年: 21

2001年: 21

2000年: 23

1999年: 10

1998年: 22

1997年: 8

1996年: 9

1995年: 9

1994年: 7

1993年: 5

1992年: 11

1991年: 5

1990年: 6

1980-1989: 22

1960-1979: 9