图像处理发展

2015-07-28 11:04:40 u013360881 阅读数 5008

最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(一维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。

下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。

搜索方向

基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、google、yahoo和百度,个个鼎鼎大名。

医学图像方向

目前在医疗器械方向主要是几个大企业在竞争,来头都不小,其中包括Simens、GE、飞利浦和柯达,主要生产CT和MRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞

计算机视觉和模式识别方向

我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。

上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。

视频方向

一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEG、H.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个bbs或者各种招聘网站经常看到。

我所知道的两个公司:诺基亚和pixelworks

其他

其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司:

上海豪威集成电路有限公司(www.ovt.com.cn)

中芯微

摩托罗拉上海研究院

威盛(VIA)

松下

索尼

清华同方

三星

所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。

要求:

1、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。

2、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。

3、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。

4、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。

图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。

我说点不好的呵呵版主的说法我同意 都是正面的

反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的

多数做图象的是用MATLAB,用别人的代码(如小波)。在研究生三年学好C++毕业的有多少?在公司C++是重要的。

图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。

外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。

说这些不是波冷水,希望大家了解清楚。

Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore.

The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills…

It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing

我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像.

其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性.

顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司.

楼主是好人,不过此文更多是安慰,新手不可太当真

衡量专业好坏的标准有两个:应用前景和技术门槛。个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少。总的来说图像方向就业一般,在it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见)

1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。

2)说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。

3)再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。

4)说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽(一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的),研究点做深入,注重实现能力、创新能力和学习能力,通过论文。多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。

5)当然,最后,找工的时候,包装是一种技巧,整合是一种需要。

我觉得做图像处理还是很有前途的。

1、请学好图像基本理论知识,笔试会遇到很多基础的题;

2、请学好c++语言,99%以上的公司在招图像岗位的人员时都会笔试c++;

3、请多做一些实际的项目,少一些理论的研究(针对中小企业而言);

4、请不要只局限于的课题,因为可能你的课题只是图像处理领域的一些皮毛;

5、请多了解一些相关的前沿知识;

6、请不要迷信自己的算法,比如BP神经网络(可能理论研究时用的很多,可是实际呢?)

7、请尽量与企业的相关人士探讨该领域的问题,那样的收获比书本大很多;

2015-10-30 22:10:00 cafucwxy 阅读数 26498
2010-10-23 22:42 19465人阅读 评论(10) 收藏 举报

最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握一维信号处理的基本知识,也要掌握图像处理的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。
下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。
搜索方向
基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、googleyahoo和百度,个个鼎鼎大名。
医学图像方向
目前在医疗器械方向主要是几大企业在竞争,来头都不小,其中包括西门子、飞利浦和柯达,主要生产CTMRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞。
模式识别方向
我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。
视频方向
一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEGH.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个论坛或者各种招聘网站经常看到。我所知道的两个公司:诺基亚和pixelworks。


其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司:上海豪威集成电路有限公司、中芯微、摩托罗拉上海研究院、威盛、松下、索尼、清华同方、三星。所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。
要求:
1
、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。
2
、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。
3
、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。
4
、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。
图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。
我说点不好的,版主的说法我同意都是正面的,反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的。多数做图象的是用MATLAB,用别人的代码。在研究生三年学好C++毕业的有多少?在公司C++是重要的。图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。说这些不是波冷水,希望大家了解清楚。
Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore.
The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills...
It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing
我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像.
其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性.
顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司.
楼主是好人,不过此文更多是安慰,新手不可太当真
衡量专业好坏的标准有两个:应用前景和技术门槛。个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少。总的来说图像方向就业一般,it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见)

1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。
2
)说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。
3
)再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。
4
)说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽。一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的。研究点做深入,注重实现能力、创新能力和学习能力,通过论文多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。
5
)当然,最后,找工的时候,包装是一种技巧,整合是一种需要。
我觉得做图像处理还是很有前途的。

 

作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。

做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用。(这里我要感谢SMTH AI版的alamarik和Graphics版的faintt)

导航栏: [1]研究群体、[2]大拿主页、[3]前沿期刊、[4]GPL软件资源、[5]搜索引擎。

一、研究群体
http://www-2.cs.cmu.edu/~cil/vision.html
这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。

http://www.cmis.csiro.au/IAP/zimage.htm
这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE。

http://www.via.cornell.edu/
康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。

http://www2.parc.com/istl/groups/did/didoverview.shtml
有一个很有意思的项目:DID(文档图像解码)。

http://www-cs-students.stanford.edu/
斯坦福大学计算机系主页,自己找吧:(

http://www.fmrib.ox.ac.uk/analysis/
主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration,

Automated Segmentation,Structural brain change analysis,motion correction,etc.

http://www.cse.msu.edu/prip/
这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)。

http://pandora.inf.uni-jena.de/p/e/index.html
德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。

http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html
CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture.

http://cfia.gmu.edu/
The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links

between academic institutes, industry and government agencies, and to transfer key technologies to

help industry build next

generation commercial and military imaging and multimedia systems.

http://peipa.essex.ac.uk/info/groups.html
可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。

二、图像处理GPL
http://www.ph.tn.tudelft.nl/~klamer/cppima.html
Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。

http://iraf.noao.edu/
Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software

system for the reduction and analysis of astronomical data.

http://entropy.brni-jhu.org/tnimage.html
一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。

http://sourceforge.net/projects/
这是GPL软件集散地,到这里找你想要得到的IP库吧。

三、搜索资源
当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间:

http://sal.kachinatech.com/
http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml
四、大拿网页
http://www.ai.mit.edu/people/wtf/
这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。

http://www.merl.com/people/brand/
MERL(Mitsubishi Electric Research Laboratory)
中的擅长“Style Machine”高手。

http://research.microsoft.com/~ablake/
CV
界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MIT,Edinburgh,Oxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html
这位牛人好像正在学习汉语,并且搜集了诸如“两只老虎(Two Tigers)”的歌曲,嘿嘿:)
他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。

http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html
这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。

五、前沿期刊(TOP10)
这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:)

IEEE Trans. On PAMIhttp://www.computer.org/tpami/index.htm
IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm
Pattern Recognition http://www.elsevier.com/locate/issn/00313203
Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655



原文链接:http://blog.csdn.net/mpzsw/article/details/5961354

2012-02-17 17:53:37 timeyutou 阅读数 2621
 
最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。
就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(一维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。
下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。
搜索方向
基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、googleyahoo和百度,个个鼎鼎大名。
医学图像方向
目前在医疗器械方向主要是几个大企业在竞争,来头都不小,其中包括SimensGE、飞利浦和柯达,主要生产CTMRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞
计算机视觉和模式识别方向
我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。
上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。
视频方向
一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEGH.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个bbs或者各种招聘网站经常看到。
我所知道的两个公司:诺基亚和pixelworks
其他
其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司:
上海豪威集成电路有限公司(www.ovt.com.cn
中芯微
摩托罗拉上海研究院
威盛(VIA
松下
索尼
清华同方
三星
所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。
要求:
1
、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。
2
、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。
3
、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。
4
、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。
图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。
 
我说点不好的呵呵版主的说法我同意都是正面的
反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的
多数做图象的是用MATLAB,用别人的代码(如小波)。在研究生三年学好C++毕业的有多少?在公司C++是重要的。
图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。
外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。
说这些不是波冷水,希望大家了解清楚。
Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore.
The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills...
It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing
我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像.
其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性.
顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司.
楼主是好人
不过此文更多是安慰
新手不可太当真
衡量专业好坏的标准有两个:应用前景和技术门槛
个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少
总的来说图像方向就业一般,it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见)
1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。
2)说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。
3)再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。
4)说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽(一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的),研究点做深入,注重实现能力、创新能力和学习能力,通过论文。多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。
5)当然,最后,找工的时候,包装是一种技巧,整合是一种需要。
我觉得做图像处理还是很有前途的。
有做图像三维重建的来找我,我们公司做医疗影像的。
可以跟我Email联系:yalee@sina.com
作图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前
沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就
是找出这个方向公认最牛的几个超级大拿(看看他们都在作什么)和最权威的
出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个
实际应用的项目,边做边写文章。
做好这几点的途径之一就是充分利用网络资源,特别是权威网站和大拿们的个人主页。下面是我收集的一些资源,希望对大家有用。(这里我要感谢SMTH AI版的alamarikGraphics版的faintt)
导航栏:
[1]研究群体
[2]
大拿主页
[3]
前沿期刊
[4]GPL
软件资源
[5]
搜索引擎
一、研究群体
http://www-2.cs.cmu.edu/~cil/vision.html
这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。
http://www.cmis.csiro.au/IAP/zimage.htm 
这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE
http://www.via.cornell.edu/
康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。
http://www2.parc.com/istl/groups/did/didoverview.shtml
有一个很有意思的项目:DID(文档图像解码)
http://www-cs-students.stanford.edu/
斯坦福大学计算机系主页,自己找吧:(
http://www.fmrib.ox.ac.uk/analysis/
主要研究:Brain Extraction Tool,Nonlinear noise reduction,Linear Image Registration,
Automated Segmentation,Structural brain change analysis,motion correction,etc.
http://www.cse.msu.edu/prip/
这是密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)
http://pandora.inf.uni-jena.de/p/e/index.html
德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。
http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html 
CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture.
http://cfia.gmu.edu/
The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links
between academic institutes, industry and government agencies, and to transfer key technologies to
help industry build next
generation commercial and military imaging and multimedia systems.
http://peipa.essex.ac.uk/info/groups.html 
可以通过它来搜索全世界各地的知名的计算机视觉研究组(CV Groups),极力推荐。
二、图像处理GPL
http://www.ph.tn.tudelft.nl/~klamer/cppima.html
Cppima 
是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。
http://iraf.noao.edu/
Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software
system for the reduction and analysis of astronomical data.
http://entropy.brni-jhu.org/tnimage.html 
一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。
http://sourceforge.net/projects/
这是GPL软件集散地,到这里找你想要得到的IP库吧。
三、搜索资源
当然这里基本的搜索引擎还是必须要依靠的,比如Google等,可以到我常用的链接看看。下面的链接可能会节省你一些时间:
http://sal.kachinatech.com/
http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml
四、大拿网页
http://www.ai.mit.edu/people/wtf/
这位可是MIT人工智能实验室的BILL FREEMAN。大名鼎鼎!专长是:理解--贝叶斯模型。
http://www.merl.com/people/brand/
MERL(Mitsubishi Electric Research Laboratory)
中的擅长“Style Machine”高手。
http://research.microsoft.com/~ablake/
CV
界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MITEdinburghOxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html 
这位牛人好像正在学习汉语,并且搜集了诸如两只老虎(Two Tigers)”的歌曲,嘿嘿:)
他的主页上面还有几个牛:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。他毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。
http://www.ifp.uiuc.edu/yrui_ifp_home/html/huang_frame.html
这位老牛在1963年就获得了MIT的博士学位!他领导的Image Lab比较出名的是指纹识别。
--------------------------------------------------------------------------------
下面这些是我搜集的牛群(大部分是如日中天的Ph.D),可以学习的是他们的Study Ways!
Finn Lindgren(Sweden):Statistical image analysis http://www.maths.lth.se/matstat/staff/finn/
Pavel Paclik(Prague):statistical pattern recognition http://www.ph.tn.tudelft.nl/~pavel/
Dr. Mark Burge:machine learning and graph theory http://cs.armstrong.edu/burge/
yalin Wang:Document Image Analysis http://students.washington.edu/~ylwang/
Geir Storvik: Image analysis http://www.math.uio.no/~geirs/
Heidorn http://alexia.lis.uiuc.edu/~heidorn/
Joakim Lindblad:Digital Image Cytometry http://www.cb.uu.se/~joakim/index_eng.html
S.Lavirotte: http://www-sop.inria.fr/cafe/Stephane.Lavirotte/
Sporring:
scale-space techniques http://www.lab3d.odont.ku.dk/~sporring/
Mark Jenkinson:Reduction of MR Artefacts http://www.fmrib.ox.ac.uk/~mark/
Justin K. Romberg:digital signal processing http://www-dsp.rice.edu/~jrom/
Fauqueur:Image retrieval by regions of interest http://www-rocq.inria.fr/~fauqueur/
James J. Nolan:Computer Vision http://cs.gmu.edu/~jnolan/
Daniel X. Pape:Information http://www.bucho.org/~dpape/
Drew Pilant:remote sensing technology http://www.geo.mtu.edu/~anpilant/index.html
五、前沿期刊(TOP10)
这里的期刊大部分都可以通过上面的大拿们的主页间接找到,在这列出主要是为了节省直接想找期刊投稿的兄弟的时间:)
 
神经网络

Image Compression with Neural Networks 
http://www.comp.glam.ac.uk/digimaging/neural.htm

Backpropagator's Review 
http://www.dontveter.com/bpr/bpr.html

Bibliographies on Neural Networks 
http://liinwww.ira.uka.de/bibliography/Neural/

Intelligent Motion Control with an Artificial Cerebellum 
http://www.q12.org/phd.html

Some Neural Networks Research Organizations 
http://www.ieee.org/nnc/ 
http://www.inns.org/

Neural Network Modeling in Vision Research 
http://www.rybak-et-al.net/nisms.html

Neural Networks and Machine Learning 
http://learning.cs.toronto.edu/

Neural Application Software 
http://attrasoft.com

Neural Network Toolbox for MATLAB 
http://www.mathworks.com/products/neuralnet/

Kunama Systems Limited 
http://www.kunama.co.uk/
 
Computer Vision
Computer Vision Homepage, Carnegie Mellon University
www.cs.cmu.edu/~cil/vision.html
Lawrence Berkeley National Lab Computer Vision and Robotics Applications 
http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html
CVonline by University of Edinburgh 
The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision, www.dai.ed.ac.uk/CVonline
Research Activities in Computer Vision 
http://www-syntim.inria.fr/syntim/analyse/index-eng.html
Dictionary of Terms in Human and Animal Vision 
http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html
Digital Photography
Digital Photography, Scanning, and Image Processing 
www.dbusch.com/scanners/scanners.html
 
Educational Resources, Universities
Center for Image Processing in Education 
www.cipe.com 
Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology 
http://wally2.rit.edu/pubs/guides/imagingcall.html
Mathematical Experiences through Image Processing, University of Washington 
www.cs.washington.edu/research/metip/metip.html
Vismod Tech Reports and Publications, MIT 
http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker
Vision Lab PhD dissertation list, University of Antwerp 
http://wcc.ruca.ua.ac.be/~visielab/theses.html
INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems 
www.inria.fr/Themes/Theme3-eng.html
Image Processing Resources 
http://eleceng.ukc.ac.uk/~rls3/Contents.htm
FAQs
comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations 
www.exaflop.org/docs/cgafaq
Astronomical Image Processing System FAQ 
www.cv.nrao.edu/aips/aips_faq.html
2019-06-11 11:22:17 yufeilongyuan 阅读数 905

                                                                  图像处理与计算机视觉基础,经典以及最近发展

                                                                    By xdyang(杨晓冬xdyang.ustc@gmail.com

                                                                         原博客地址:https://blog.csdn.net/dcraw

 

一、 绪论

1. 为什么要写这篇文章

       2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,抓住重点来阅读,同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得很一般,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个工作给完善,力求做到尽量全面。


       本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的IntroductionRelated work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在参考文献的汪洋大海里。

2. 图像处理和计算机视觉的分类

按照当前流行的分类方法,可以分为以下三部分:


A.图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。

B.图像分析:对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。


C.计算机视觉:对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。


      关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理->低层视觉(low level vision),图像分析->中间层视觉(middle level vision),计算机视觉->高层视觉(high level vision。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。

3. 图像处理和计算机视觉开源库以及编程语言选择

       目前在图像处理中有两种最重要的语言:c/c++matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。

计算机视觉/图像算法/模式识别 工程师们使用的主流编程语言

 

1) 重中之重:编程语言之C/C++

公司面试除了考查应聘者的图像处理基础知识、思维逻辑和个人品性之外,在个人能力之中最重要的一条就是C/C 的功底,很多学生朋友们在学校求学阶段并不重视C/C++的学习,导致找工作时处处碰壁(不过对于来参加面试的朋友,如果有较强的逻辑思维或图像理论功底,即使C/C++ 功底弱些,企业还是会偏爱的,毕竟C/C++ 只是一个工具,只要给些时间去钻研还是可以调高的,但是逻辑思维能力和图像理论功底却不是短时期就能提高的。不过一般逻辑思维和图像理论比较强的人,其C/C 水平也是不错的)

 

为啥要这么重视C/C++ ?答案很简单,与绝大多数其它开发语言相比:C/C++ 的应用领域无法被超越、程序运行效率无法匹敌(当然汇编语言除外),是使用人数最多、跨平台最广的语言工具(适用于windows/linux/dsp/arm/单片机,当然还有其它一些平台)。简单的说,对于多数应用,其它语言能做的事情C/C++ 几乎都能做,其它语言不能做的事情C/C++ 也可以做。

 

2) 辅助工具之:MATLAB

百度百科中是这么说的:“MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLABSimulink两大部分。

 

MATLAB本身是一个不错的仿真、建模工具,但不适用于应用级项目的开发,原因很简单:效率与C/C++ 无法匹敌、不夸平台。(虽然后来出来了codegen可以将MATLAB部分代码转换为C++,但自动生成的还是无法与我们自己写的并优化的C++代码相比;还有MATLAB mex接口能够将C++MABLAB接口对接,既然使用了MATLAB编程,那在应用级的领域还是无法与纯C++相比)

 

简短说说多年前做学生时的部分学习经历

记得多年前上大学阶段大嘴起初只跟着学校的课程学习了MATLAB的图像处理相关模块(后来才学的C/C++ ),一开始觉得很兴奋,因为只需要编写很少量的代码就可以实现很强大的效果。后来大嘴进一家计算机视觉类的公司实习,发现公司主要用的是C/C++ ,因为MATLAB效率比起C/C++ 相差几倍、十几倍、甚至几十倍,而且要命的是不跨平台,只能用于windows上,后来逼的自己去学了C/C++ ,也正因如此那以后一直到现在特别是当初找工作的时候让我受益匪浅。

 

对于企业,特别是私企,公司除非给你充足的时间先使用MATLAB做完算法功能,然后再用C/C++ 慢慢改写,而且了解的朋友们都知道,MATLAB的精度与封装的函数标准与C/C++ 有很多不一样,改写起来相对麻烦一些,这样太慢太慢太慢了,项目不等人啊。试问人家成手能够用短时间写出C/C++ 做图像算法并马上可以投入应用,而自己却在那边慢慢磨MATLAB,然后再费老大劲改成纯C(比如需要警觉MATLAB与C++精度不一样的问题、图像处理基础函数标准不一样的问题),那么老板会比较喜欢谁呢?

 

如果大家从最初就使用C/C++ ,虽然一开始不数量会写的很慢,但是随着知识量和自各种库(比如图像处理库)的积累,那么总有一天开发速度会快起来的,量的积累,质的飞跃。

 

说了不少,本人并不否认MATLAB,MATLAB做为建模、仿真以及一些验证的工作(比如图形分析和处理、图表显示、图像仿真、语音仿真等)还是不错的,这方面大嘴绝对力挺MATLAB,目前本人也还在使用中。

 

一句话:对于多数普通人来讲,如果你的目标是想进企业做为一个实力派工程师,那么大嘴建议您以C/C++ 为主、MATLAB为辅助工具做开发。

 

3) 辅助工具之:OPENCV

随着opencv的问世,图像算法/计算机视觉/模式识别行业的门槛儿变低了,原因有以下几点:(1)opencv是以C/C ++为基础开发出来的,适用性强,windows下适用opencv开发的图像算法应用效率足够快(2)封装了很多基础图像处理函数和视觉算法,可谓“拿来即可用”。 (3)与嵌入式接口的统一趋势,如前几年大牛们人物搞出来的EMCV(基于C/C++ ),其基础架构和接口与opencv基本一致,但个人认为EMCV很多函数功能尚不完善,目前暂时无法与opencv相比。今后很多人在windows下基于opencv开发后,可以较为轻松的移植到DSP上,这种开发模式会是一种趋势。

 

说了opencv几条优点,但本人并不赞同只依赖opencv做开发,无论是图像算法行业还是其它很多行业,最重要的不是用什么工具,而是自己的基础知识和逻辑思维方式,opencv封装了很多基础函数,如果朋友们未搞懂其基础原理便加以使用,这种方式并不利于锻炼自己,抽空自己实现一下opencv和MATLAB的封装好的那些基础函数吧,久而久之,你会发现自己站的高度会越来越高的。

说到这里,改写一下评述MATLAB时的一句话:”对于多数普通人来讲,如果你的目标是想进企业做为一个实力派工程师,那么大嘴建议您以C/C ++为主、OPENCV和MATLAB为辅助工具做开发。”

 

4) 简单说说其它语言

其它开发语言,比如:C#,JAVA等(还有很多很多语言,不一一举例了)都是不错的开发语言,各自有各自的主应用领域和优势,也有很多很多牛人在使用,不过做图像处理嘛,如果不偏向企业级应用(如嵌入式中),虽然也可以用,但是了解的朋友做出来的算法效率实在不敢恭维…,又无法夸平台,在一些不要求效率的场合还是可以用的,所以请学生朋友们慎重选择开发语言,因为这与自己以后的择业以及职位方向有很大关系。

 

4. 本文的特点和结构,以及适合的对象

       在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。

 

    由于个人精力和视野的关系,有一些我未涉足过的领域不敢斗胆推荐,只是列出了一些引用率比较高的文章,比如摄像机标定和立体视觉。不过将来,由于工作或者其他原因,这些领域也会接触到,我会逐步增减这些领域的文章。尽管如此,仍然会有疏漏,忘见谅。同时文章的挑选也夹带了一些个人的喜好,比如我个人比较喜欢low level方向的,尤其是IJCV和PAMI上面的文章,因此这方面也稍微多点,希望不要引起您的反感。如果有什么意见或者建议,欢迎mail我。文章和资源我都会在我的csdn blog和sina ishare同步更新。

 

      本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。

 

 

二、 图像处理与计算机视觉相关的书籍

1. 数学

      我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研数学的三个组成部分,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学书目了。

2. 信号处理

    图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

2.1经典信号处理

信号与系统(第2版) Alan V.Oppenheim等著 刘树棠译

离散时间信号处理(第2版) A.V.奥本海姆等著 刘树棠译

数字信号处理:理论算法与实现 胡广书 (编者)

2.2随机信号处理

现代信号处理 张贤达著

统计信号处理基础:估计与检测理论 Steven M.Kay等著 罗鹏飞等译

自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

2.3 小波变换

信号处理的小波导引:稀疏方法(原书第3版) tephane Malla著, 戴道清等译

2.4 信息论

信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译

3. 模式识别

Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

模式识别(英文版)(第4版) 西奥多里德斯著

Pattern Classification (2nd Edition) Richard O. Duda等著

Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

模式识别(第3版) 张学工著

4. 图像处理与计算机视觉的书籍推荐

图像处理,分析与机器视觉 第三版 Sonka等著 艾海舟等译

Image Processing, Analysis and Machine Vision

 (附:这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。)

 

数字图像处理 第三版 冈萨雷斯等著

Digital Image Processing

(附:数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。)

 

计算机视觉:理论与算法 Richard Szeliski著

Computer Vision: Theory and Algorithm

 (附:微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和 Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。

计算机视觉:一种现代方法 DA Forsyth等著

Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了,还是值得一读。期待第二版

 

Machine vision: theory, algorithms, practicalities 第三版 Davies著

(附:为数不多的英国人写的书,偏向于工业应用。)

数字图像处理 第四版 Pratt著

Digital Image Processing

(附:写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。)

 

5. 小结

罗嗦了这么多,实际上就是几个建议:
(1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。
(2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
(3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

 

 

三、 计算机视觉中的信号处理与模式识别

      从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方便,按照字母顺序排的序。

1. Boosting

   Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。
Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与者。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。

[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

[1998] Boosting the margin A new explanation for the effectiveness of voting methods

[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection

[2003] The Boosting Approach to Machine Learning An Overview

[2004 IJCV] Robust Real-time Face Detection

 

2. Clustering

聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。

[1989 PAMI] Unsupervised Optimal Fuzzy Clustering

[1991 PAMI] A validity measure for fuzzy clustering

[1995 PAMI] On cluster validity for the fuzzy c-means model

[1998] Some New Indexes of Cluster Validity

[1999 ACM] Data Clustering A Review

[1999 JIIS] On Clustering Validation Techniques

[2001] Estimating the number of clusters in a dataset via the Gap statistic

[2001 NIPS] On Spectral Clustering

[2002] A stability based method for discovering structure in clustered data

[2007] A tutorial on spectral clustering

3. Compressive Sensing

最近大红大紫的压缩感知理论。

[2006 TIT] Compressed Sensing

[2008 SPM] An Introduction to Compressive Sampling

[2011 TSP] Structured Compressed Sensing From Theory to Applications

4. Decision Trees

对决策树感兴趣的同学这篇文章是非看不可的了。

[1986] Introduction to Decision Trees

5. Dynamical Programming

动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter

[1990 PAMI] using dynamic programming for solving variational problems in vision

[Book Chapter] Dynamic Programming

6. Expectation Maximization

EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。

[1977] Maximum likelihood from incomplete data via the EM algorithm

[1996 SPM] The Expectation-Maximzation Algorithm

7. Graphical Models

伯克利的乔丹大师的Graphical Model,可以配合这Bishop的PRML一起看。

[1999 ML] An Introduction to Variational Methods for Graphical Models

8. Hidden Markov Model

HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。

[1989 ] A tutorial on hidden markov models and selected applications in speech recognition

[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models

[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

Hmm Chinese book.pdf

9. Independent Component Analysis

同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。

[1999] Independent Component Analysis A Tutorial

[2000 NN] Independent component analysis algorithms and applications

[2000] Independent Component Analysis Algorithms and Applications

10. Information Theory

计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。

[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

[2010] An information theory perspective on computational vision

11. Kalman Filter

这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

[1970] Least-squares estimation_from Gauss to Kalman

[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

[2000] The Unscented Kalman Filter for Nonlinear Estimation

[2001 Siggraph] An Introduction to the Kalman Filter_full

[2003] A Study of the Kalman Filter applied to Visual Tracking

12. Pattern Recognition and Machine Learning

模式识别名气比较大的几篇综述

[2000 PAMI] Statistical pattern recognition a review

[2004 CSVT] An Introduction to Biometric Recognition

[2010 SPM] Machine Learning in Medical Imaging

13. Principal Component Analysis

著名的PCA,在特征的表示和特征降维上非常有用。

[2001 PAMI] PCA versus LDA

[2001] Nonlinear component analysis as a kernel eigenvalue problem

[2002] A Tutorial on Principal Component Analysis

[2009] A Tutorial on Principal Component Analysis

[2011] Robust Principal Component Analysis

[Book Chapter] Singular Value Decomposition and Principal Component Analysis

14. Random Forest

随机森林

[2001 ML] Random Forests

15. RANSAC

随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

[2009 BMVC] Performance Evaluation of RANSAC Family

16. Singular Value Decomposition

对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇Book Chapter

[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

[Book Chapter] Singular Value Decomposition and Principal Component Analysis

17. Sparse Representation

这里主要是Proceeding of IEEE上的几篇文章

[2009 PAMI] Robust Face Recognition via Sparse Representation

[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

[2010 PIEEE] Dictionaries for Sparse Representation Modeling

[2010 PIEEE] It's All About the Data

[2010 PIEEE] Matrix Completion With Noise

[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

[2011 SPM] Directionary Learning

18. Support Vector Machines

[1998] A Tutorial on Support Vector Machines for Pattern Recognition

[2004] LIBSVM A Library for Support Vector Machines

19. Wavelet

在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。
说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。

[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

[1996 PAMI] Image Representation using 2D Gabor Wavelet

[1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS

[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

[2000 TCE] The JPEG2000 still image coding system_ an overview

[2002 TIP] The curvelet transform for image denoising

[2003 TIP] Gray and color image contrast enhancement by the curvelet transform

[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

[2003 TIP] The finite ridgelet transform for image representation

[2005 TIP] Sparse Geometric Image Representations With Bandelets

[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

[2010 SPM] The Curvelet Transform

 

 

四、 图像处理与分析

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

[1998 ICCV] Bilateral Filtering for Gray and Color Images

[2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

2. Color

如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

[1991 IJCV] Color Indexing

[2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval

[2001 PAMI] Color invariance

[2002 IJCV] Statistical Color Models with Application to Skin Detection

[2003] A review of RGB color spaces

[2007 PR]A survey of skin-color modeling and detection methods

Gamma.pdf

GammaFAQ.pdf

3. Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE] Trends and perspectives in image and video coding

4. Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV] Vision and the Atmosphere

[2003 TIP] Gray and color image contrast enhancement by the curvelet transform

[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II

[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I

[2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

[2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement

5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了可执行文件。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

[1972] Bayesian-Based Iterative Method of Image Restoration

[1974] an iterative technique for the rectification of observed distributions

[1990 IEEE] Iterative methods for image deblurring

[1996 SPM] Blind Image Deconvolution

[1997 SPM] Digital image restoration

[2005] Digital Image Reconstruction - Deblurring and Denoising

[2006 Siggraph] Removing Camera Shake from a Single Photograph

[2008 Siggraph] High-quality Motion Deblurring from a Single Image

[2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2这位003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

[2008 Siggraph] Single Image Dehazing

[2009 CVPR] Single Image Haze Removal Using Dark Channel Prior

[2011 PAMI] Single Image Haze Removal Using Dark Channel Prior

7. Denoising

图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II

[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion

[1992] Nonlinear total variation based noise removal algorithms

[1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion

[1995 TIT] De-noising by soft-thresholding

[1998 TIP] Orientation diffusions

[2000 TIP] Adaptive wavelet thresholding for image denoising and compression

[2000 TIP] Fourth-order partial differential equations for noise removal

[2001] Denoising through wavelet shrinkage

[2002 TIP] The Curvelet Transform for Image Denoising

[2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time

[2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image

[2009 TIP] Is Denoising Dead

8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

[1980] theory of edge detection

[1983 Canny Thesis] find edge

[1986 PAMI] A Computational Approach to Edge Detection

[1990 PAMI] Scale-space and edge detection using anisotropic diffusion

[1991 PAMI] The design and use of steerable filters

[1995 PR] Multiresolution edge detection techniques

[1996 TIP] Optimal edge detection in two-dimensional images

[1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation

[2003 PAMI] Statistical edge detection_ learning and evaluating edge cues

[2004 IEEE] Edge Detection Revisited

[2004 PAMI] Design of steerable filters for feature detection using canny-like criteria

[2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

[2011 IVC] Edge and line oriented contour detection State of the art

9. Graph Cut

基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

[2000 PAMI] Normalized cuts and image segmentation

[2001 PAMI] Fast approximate energy minimization via graph cuts

[2004 PAMI] What energy functions can be minimized via graph cuts

10. Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU] A Survey of the Hough Transform

[1989] A Comparative study of Hough transform methods for circle finding

[1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization

[1997 PR] Extraction of line features in a noisy image

[2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

11. Image Interpolation

图像插值,偶尔也用得上。一般来说,双三次也就够了

[2000 TMI] Interpolation revisited

12. Image Matting

也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd] Image and Video Matting A Survey

[2008 PAMI] A Closed-Form Solution to Natural Image Matting

[2008 PAMI] Spectral Matting

13. Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994] The statistics of natural images

[2003 JMIV] On Advances in Statistical Modeling of Natural Images

[2009 IJCV] Fields of Experts

[2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures

14. Image Quality Assessment

在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

[2004 TIP] Image quality assessment from error visibility to structural similarity

[2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality

15. Image Registration

图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

[1992 MIA] Image matching as a diffusion process

[1992 PAMI] A Method for Registration of 3-D shapes

[1992] a survey of image registration techniques

[1998 MIA] A survey of medical image registration

[2003 IVC] Image registration methods a survey

[2003 TMI] Mutual-Information-Based Registration of Medical Survey

[2011 TIP] Hairis registration

16. Image Retrieval

图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在商业界,比如淘淘搜。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

[2000 PAMI] Content-based image retrieval at the end of the early years

[2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

[2002] Content-Based Image Retrieval Systems A Survey

[2008] Content-Based Image Retrieval-Literature Survey

[2010] Plant Image Retrieval Using Color,Shape and Texture Features

[2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

CBIR Chinese

fundament of cbir

17. Image Segmentation

图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

[2004 IJCV] Efficient Graph-Based Image Segmentation

[2008 CVIU] Image segmentation evaluation A survey of unsupervised methods

[2011 PAMI] Contour Detection and Hierarchical Image Segmentation

18. Level Set

大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

[1995 PAMI] Shape modeling with front propagation_ a level set approach

[2001 JCP] Level Set Methods_ An Overview and Some Recent Results

[2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking

[2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation

[2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors

[2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation

19. Pyramid

其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

[1983] The Laplacian Pyramid as a Compact Image Code

20. Radon Transform

Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

[1993 PAMI] Image representation via a finite Radon transform

[1993 TIP] The fast discrete radon transform I theory

[2007 IVC] Generalised finite radon transform for N×N images

21. Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

[1987] Scale-space filtering

[1990 PAMI] Scale-Space for Discrete Signals

[1994] Scale-space theory A basic tool for analysing structures at different scales

[1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection

[1998 IJCV] Feature Detection with Automatic Scale Selection

22. Snake

活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

[1987 IJCV] Snakes Active Contour Models

[1996 ] deformable model in medical image A Survey

[1997 IJCV] geodesic active contour

[1998 TIP] Snakes, shapes, and gradient vector flow

[2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects

[2001 TIP] Active contours without edges

23. Super Resolution

超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002] Example-Based Super-Resolution

[2009 ICCV] Super-Resolution from a Single Image

[2010 TIP] Image Super-Resolution Via Sparse Representation

24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE] OTSU A threshold selection method from gray-level histograms

[2001 JISE] A Fast Algorithm for Multilevel Thresholding

[2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation

25. Watershed

分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations

[2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies

 

五、 计算机视觉

这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。

1. Active Appearance Models

活动表观模型和活动轮廓模型基本思想来源Snake,现在在人脸三维建模方面得到了很成功的应用,这里列出了三篇最早最经典的文章。对这个领域有兴趣的可以从这三篇文章开始入手。

[1998 ECCV] Active Appearance Models

[2001 PAMI] Active Appearance Models

2. Active Shape Models

[1995 CVIU]Active Shape Models-Their Training and Application

3. Background modeling and subtraction

背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生,demo效果也很好,比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法,他们最大的贡献在于不用EM去做高斯拟合,而是采用了一种迭代的算法,这样就不需要保存很多帧的数据,节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法,把混合高斯模型做到了极致。这种方法效果也很好,而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里,无参数方法(2000 ECCV)和Vibe方法也值得关注。

[1997 PAMI] Pfinder Real-Time Tracking of the Human Body

[1999 CVPR] Adaptive background mixture models for real-time tracking

[1999 ICCV] Wallflower Principles and Practice of Background Maintenance

[2000 ECCV] Non-parametric Model for Background Subtraction

[2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking

[2002 PIEEE] Background and foreground modeling using nonparametric

kernel density estimation for visual surveillance

[2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction

[2004 PAMI] Recursive unsupervised learning of finite mixture models

[2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction

[2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences

4. Bag of Words

词袋,在这方面暂时没有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。

[2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos

[2004 ECCV] Visual Categorization with Bags of Keypoints

[2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories

5. BRIEF

BRIEF是Binary Robust Independent Elementary Features的简称,是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。

[2010 ECCV] BRIEF Binary Robust Independent Elementary Features

[2011 ICCV] ORB an efficient alternative to SIFT or SURF

[2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast

6. Camera Calibration and Stereo Vision

非常不熟悉的领域。仅仅列出了十来篇重要的文献,供以后学习。

[1979 Marr] A Computational Theory of Human Stereo Vision

[1985] Computational vision and regularization theory

[1987 IEEE] A versatile camera calibration technique for

high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses

[1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision

[1988 PIEEE] Ill-Posed Problems in Early Vision

[1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences

[1990 IJCV] Relative Orientation

[1990 IJCV] Using vanishing points for camera calibration

[1992 ECCV] Camera self-calibration Theory and experiments

[1992 IJCV] A theory of self-calibration of a moving camera

[1992 PAMI] Camera calibration with distortion models and accuracy evaluation

[1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis

[1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment

[1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations

[1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system

[2000 PAMI] A flexible new technique for camera calibration

7. Color and Histogram Feature

这里面主要来源于图像检索,早期的图像检测基本基于全局的特征,其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。

[1995 SPIE] Similarity of color images

[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

[1996] comparing images using color coherence vectors

[1997 ] Image Indexing Using Color Correlograms

[2001 TIP] An Efficient Color Representation for Image Retrieval

[2009 CVIU] Performance evaluation of local colour invariants

8. Deformable Part Model

大红大热的DPM,在OpenCV中有一个专门的topic讲DPM和latent svm

[2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model

[2010 CVPR] Cascade Object Detection with Deformable Part Models

[2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models

9. Distance Transformations

距离变换,在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。

[1986 CVGIP] Distance Transformations in Digital Images

[2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey

10. Face Detection

最成熟最有名的当属Haar+Adaboost

[1998 PAMI] Neural Network-Based Face Detection

[2002 PAMI] Detecting faces in images a survey

[2002 PAMI] Face Detection in Color Images

[2004 IJCV] Robust Real-Time Face Detection

11. Face Recognition

不熟悉,简单罗列之。

[1991] Face Recognition Using Eigenfaces

[2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art

[2000] Face Recognition A Literature Survey

[2006 PR] Face recognition from a single image per person A survey

[2009 PAMI] Robust Face Recognition via Sparse Representation

12. FAST

用机器学习的方法来提取角点,号称很快很好。

[2006 ECCV] Machine learning for high-speed corner detection

[2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection

13. Feature Extraction

这里的特征主要都是各种不变性特征,SIFT,Harris,MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征,王永明与王贵锦合著的《图像局部不变性特征与描述》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。

[1989 PAMI] On the detection of dominant points on digital curves

[1997 IJCV] SUSAN—A New Approach to Low Level Image Processing

[2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions

[2004 IJCV] Scale & Affine Invariant Interest Point Detectors

[2005 PAMI] A performance evaluation of local descriptors

[2006 IJCV] A Comparison of Affine Region Detectors

[2007 FAT] Local Invariant Feature Detectors - A Survey

[2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors

14. Feature Matching

Fua课题组在今年PAMI上的一篇文章,感觉还不错

[2012 PAMI] LDAHash Improved Matching with Smaller Descriptors

15. Harris

虽然过去了很多年,Harris角点检测仍然广泛使用,而且基于它有很多变形。如果仔细看了这种方法,从直观也可以感觉到这是一种很稳健的方法。

[1988 Harris] A combined corner and edge detector

16. Histograms of Oriented Gradients

HoG方法也在OpenCV中实现了:HOGDescriptor。

[2005 CVPR] Histograms of Oriented Gradients for Human Detection

NavneetDalalThesis.pdf

17. Image Distance

[1993 PAMI] Comparing Images Using the Hausdorff Distance

18. Image Stitching

图像拼接,另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中,有专门一章是讨论这个问题。这里的两面文章一篇是综述,一篇是这方面很经典的文章。

[2006 Fnd] Image Alignment and Stitching A Tutorial

[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

19. KLT

KLT跟踪算法,基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章,最后一篇给出了OpenCV实现KLT的细节。

[1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version

[1994 CVPR] Good Features to Track

[2004 IJCV] Lucas-Kanade 20 Years On A Unifying Framework

Pyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV

20. Local Binary Pattern

LBP。OpenCV的Cascade分类器也支持LBP,用来取代Haar特征。

[2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns

[2004 ECCV] Face Recognition with Local Binary Patterns

[2006 PAMI] Face Description with Local Binary Patterns

[2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features

21. Low-Level Vision

关于Low level vision的两篇很不错的文章

[1998 TIP] A general framework for low level vision

[2000 IJCV] Learning Low-Level Vision

22. Mean Shift

均值漂移算法,在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上关于Mean Shift的文章,一篇是OpenCV实现的文章。

[1995 PAMI] Mean shift, mode seeking, and clustering

[2002 PAMI] Mean shift a robust approach toward feature space analysis

[2003 CVPR] Mean-shift blob tracking through scale space

[2009 CVIU] Object tracking using SIFT features and mean shift

[2012 PAMI] Mean Shift Trackers with Cross-Bin Metrics

OpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface

23. MSER

这篇文章发表在2002年的BMVC上,后来直接录用到2004年的IVC上,内容差不多。MSER在Sonka的书里面也有提到。

[2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions

[2003] MSER Author Presentation

[2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions

[2011 PAMI] Are MSER Features Really Interesting

24. Object Detection

首先要说的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,后来到新加坡国立任教,极具潜力的一个老师。不幸的是,他和他的妻子都在2000年的新加坡空难中遇难,让人唏嘘不已。

http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006

最后一篇文章也是Fua课题组的,作者给出的demo效果相当好。

[1998 PAMI] Example-based learning for view-based human face detection

[2003 IJCV] Learning the Statistics of People in Images and Video

[2011 PAMI] Learning to Detect a Salient Object

[2012 PAMI] A Real-Time Deformable Detector

25. Object Tracking

跟踪也是计算机视觉中的经典问题。粒子滤波,卡尔曼滤波,KLT,mean shift,光流都跟它有关系。这里列出的是传统意义上的跟踪,尤其值得一看的是2008的Survey和2003年的Kernel based tracking。

[2003 PAMI] Kernel-based object tracking

[2007 PAMI] Tracking People by Learning Their Appearance

[2008 ACM] Object Tracking A Survey

[2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments

[2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition

[2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning

[2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects

26. OCR

一个非常成熟的领域,已经很好的商业化了。

[1992 IEEE] Historical review of OCR research and development

Video OCR A Survey and Practitioner's Guide

27. Optical Flow

光流法,视频分析所必需掌握的一种算法。

[1981 AI] Determine Optical Flow

[1994 IJCV] Performance of optical flow techniques

[1995 ACM] The Computation of Optical Flow

[2004 TR] Tutorial Computing 2D and 3D Optical Flow

[2005 BOOK] Optical Flow Estimation

[2008 ECCV] Learning Optical Flow

[2011 IJCV] A Database and Evaluation Methodology for Optical Flow

28. Particle Filter

粒子滤波,主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。

[1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking

[2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking

[2002 TSP] Particle filters for positioning, navigation, and tracking

[2003 SPM] particle filter

29. Pedestrian and Human detection

仍然是综述类,关于行人和人体的运动检测和动作识别。

[1999 CVIU] Visual analysis of human movement_ A survey

[2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture

[2005 TIP] Image change detection algorithms a systematic survey

[2006 CVIU] a survey of avdances in vision based human motion capture

[2007 CVIU] Vision-based human motion analysis An overview

[2007 IJCV] Pedestrian Detection via Periodic Motion Analysis

[2007 PR] A survey of skin-color modeling and detection methods

[2010 IVC] A survey on vision-based human action recognition

[2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art

30. Scene Classification

当相机越来越傻瓜化的时候,自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。

[2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope

[2001 PAMI] Visual Word Ambiguity

[2007 PAMI] A Thousand Words in a Scene

[2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition

[2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization

31. Shadow Detection

[2003 PAMI] Detecting moving shadows-- algorithms and evaluation

32. Shape

关于形状,主要是两个方面:形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征,用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别,最牛的当属J Malik等提出的Shape Context。

[1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION

[1993 PR] Pattern Recognition by Affine Moment Invariants

[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

[2001 SMI] Shape matching similarity measures and algorithms

[2002 PAMI] Shape matching and object recognition using shape contexts

[2004 PR] Review of shape representation and description techniques

[2006 PAMI] Integral Invariants for Shape Matching

[2008] A Survey of Shape Feature Extraction Techniques

33. SIFT

关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。

[1999 ICCV] Object recognition from local scale-invariant features

[2000 IJCV] Evaluation of Interest Point Detectors

[2003 CVIU] Speeded-Up Robust Features (SURF)

[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

34. SLAM

Simultaneous Localization and Mapping, 同步定位与建图。
SLAM问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。

[2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision

[2007 PAMI] MonoSLAM Real-Time Single Camera SLAM

35. Texture Feature

纹理特征也是物体识别和检索的一个重要特征集。

[1973] Textural features for image classification

[1979 ] Statistical and structural approaches to texture

[1996 PAMI] Texture features for browsing and retrieval of image data

[2002 PR] Brief review of invariant texture analysis methods

[2012 TIP] Color Local Texture Features for Color Face Recognition

36. TLD

Kadal创立了TLD,跟踪学习检测同步进行,达到稳健跟踪的目的。他的两个导师也是大名鼎鼎,一个是发明MSER的Matas,一个是Mikolajczyk。他还创立了一个公司TLD Vision s.r.o. 这里给出了他的系列文章,最后一篇是刚出来的PAMI。

[2009] Online learning of robust object detectors during unstable tracking

[2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints

[2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES

[2012 PAMI] Tracking-Learning-Detection

37. Video Surveillance

前两篇是两个很有名的视频监控系统,里面包含了很丰富的信息量,比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。

[2000 CMU TR] A System for Video Surveillance and Monitoring

[2000 PAMI] W4-- real-time surveillance of people and their activities

[2008 MVA] The evolution of video surveillance an overview

38. Viola-Jones

 Haar+Adaboost的弱弱联手,组成了最强大的利器。在OpenCV里面有它的实现,也可以选择用LBP来代替Haar特征。

[2001 CVPR] Rapid object detection using a boosted cascade of simple features

[2004 IJCV] Robust Real-time Face Detection

六、 结束语


历时一个多月,终于用业余时间把这些资料整理出来了,总算了却了一块心病,也不至于再看着一堆资料发愁了。以后可能会有些小修小补,但不会有太大的变化了。万里长征走完了第一步,剩下的就是理解和消化了。借新浪ishare共享出来,希望能够对你的科研也有一定的帮助。最后简单统计一下各个年份出现的频率。

文章总数:372

2012年: 10

2011年: 20

2010年: 20

2009年: 14

2008年: 18

2007年: 13

2006年: 14

2005年: 9

2004年: 24

2003年: 22

2002年: 21

2001年: 21

2000年: 23

1999年: 10

1998年: 22

1997年: 8

1996年: 9

1995年: 9

1994年: 7

1993年: 5

1992年: 11

1991年: 5

1990年: 6

1980-1989: 22

1960-1979: 9

39. 附件

http://pan.baidu.com/s/1hqf4SkO

http://pan.baidu.com/s/1hq253z2

 

2018-04-17 11:11:07 qq_38906523 阅读数 18436

目标检测是当前计算机视觉和机器学习领域的研究热点。从Viola-Jones Detector、DPM等冷兵器时代的智慧到当今RCNN、YOLO等深度学习土壤孕育下的GPU暴力美学,整个目标检测的发展可谓是计算机视觉领域的一部浓缩史。本文简要回顾了从1994到2017一共二十余年间目标检测的发展历程。

01

A Road Map

从过去的十多年来看,自然图像的目标检测算法大体上可以分为基于传统手工特征的时期(2013之前)以及基于深度学习的目标检测时期(2013~今),如下图所示。从技术发展上来讲,目标检测的发展则分别经历了“包围框回归”、“深度神经网络兴起”、“多参考窗口(Multi-References,又称Anchors)”、“难样本挖掘与聚焦”以及“多尺度多端口检测”几个里程碑式的技术进步。下面将分别对这些算法和其中采用的技术逐一进行介绍。


自然图像目标检测算法发展历程图

02

基于经典手工特征的目标检测算法


早期的目标检测算法大多是基于手工特征所构建的。由于在深度学习诞生之前缺乏有效的图像特征表达方法,人们不得不尽其所能设计更加多元化的检测算法以弥补手工特征表达能力上的缺陷。同时,由于计算资源的缺乏,人们不得不同时寻找更加精巧的计算方法对模型进行加速。


【代表算法1】Viola-Jones 检测器[1]-[2]

【代表算法2】HOG行人检测器[3]

【代表算法3】可变形部件模型[8]-[12]


Viola-Jones 检测器:


2001年Paul Viola和MichaelJones在CVPR上发表了一篇跨时代意义的文章[1],后人将文章中的人脸检测算法称之为Viola-Jones(VJ)检测器。VJ检测器在17年前极为有限的计算资源下第一次实现了人脸的实时检测,速度是同期检测算法的几十甚至上百倍,极大程度地推动了人脸检测应用商业化的进程。VJ检测器的思想深刻地影响了目标检测领域至少10年的发展。


VJ检测器采用了最传统也是最保守的目标检测手段——滑动窗口检测,即在图像中的每一个尺度和每一个像素位置进行遍历,逐一判断当前窗口是否为人脸目标。这种思路看似简单,实则计算开销巨大。VJ人脸检测之所以器能够在有限的计算资源下实现实时检测,其中有三个关键要素:多尺度Haar特征的快速计算,有效的特征选择算法以及高效的多阶段处理策略。


在多尺度Harr特征快速计算方面,VJ检测器使用积分图对特征提取进行加速。积分图可以使特征计算量与窗口的尺寸无关,同时也避免了处理多尺度问题时建图像金字塔这一耗时的过程。


在特征选择算法方面,与传统意义上的手工特征不同的是,VJ检测器中使用的Harr特征并非是人为事先设计好的。VJ检测器使用了过完备的随机Haar特征,并通过Adaboost算法从一个巨大的特征池(约180k维)中进行特征选择,选取出对于人脸检测最有用的极少数几种特征从而降低不必要的计算开销。


在多阶段处理方面,作者提出了级联决策结构,并将其形象地称之为“瀑布”(Cascades)。整个检测器由多级Adaboost决策器组成,每一级决策器又由若干个弱分类决策桩(Decision Stump)组成。瀑布的核心思想是将较少的计算资源分配在背景窗口,而将较多的计算资源分配在目标窗口:如果某一级决策器将当前窗口判定为背景,则无需后续决策就可继续开始下一个窗口的判断。


HOG行人检测器:


HOG特征最早是为解决行人检测问题所提出。HOG特征可以认为是在梯度方向直方图特征基础上的又一次重要改进,是所有基于梯度特征的目标检测器的基础。HOG检测器是沿用了最原始的多尺度金字塔+滑窗的思路进行检测。为了检测不同大小的目标,通常会固定检测器窗口的大小,并逐次对图像进行缩放构建多尺度图像金字塔。为了兼顾速度和性能,HOG检测器采用的分类器通常为线性分类器[3]或级联决策分类器[7]等。


在图像的特征提取过程中,最重要的两个概念是不变性(包括平移不变性、旋转不变性、尺度不变性以及光照不变性等)和区分性(特征的表达能力)。为了兼顾二者的特点,HOG特征采用了如下的策略:将图像所在区域划分为不同的细胞单元(Cell),并在每个细胞内统计梯度方向直方图信息。除此之外,为了进一步增强其光照不变性以及非线性表达能力,HOG特征还首次引入了区块(Block)的概念,将相邻的Cell归并为一个Block,并在Block内对Cell特征进行局部归一化。


可变形部件模型:


可变形部件模型(Deformable Part based Model,DPM)是基于经典手工特征的检测算法发展的顶峰,连续获得VOC07、08、09三年的检测冠军。DPM最早由芝加哥大学的P. Felzenszwalb等人提出[8],后由其博士生R.Girshick改进[9]-[12]。2010年,P.Felzenszwalb和R. Girshick被VOC授予“终身成就奖”。DPM的主要思想可简单理解为将传统目标检测算法中对目标整体的检测问题拆分并转化为对模型各个部件的检测问题,然后将各个部件的检测结果进行聚合得到最终的检测结果,即“从整体到部分,再从部分到整体”的一个过程。例如,对汽车目标的检测问题可以在DPM的思想下分解为分别对车窗、车轮、车身等部件的检测问题,对行人的检测问题也可以类似地被分解为对人头、四肢、躯干等部件的检测问题。


在模型结构方面,DPM可视为HOG检测器在其结构上进行了拓展。整个DPM检测器由基滤波器(Root-filter)和一系列部件滤波器(Part-filter)构成。这一部分工作由Felzenszwalb等人在07年提出[8],并称其为星型模型(Star-model)。后来Girshick又在星型模型的基础上进一步将其拓展为混合模型(Mixture Model)[9]-[12],用于解决真实世界中三维物体不同视角下的检测问题。


在模型优化方面,由于DPM模型在训练过程中并未要求详细标注出各个部件的位置,所以采用了一种弱监督学习的策略。由于部件滤波器可以视为模型中的隐含变量,故Girshick进一步将其转化为隐含变量结构SVM的优化问题,并结合难样本挖掘和随机梯度优化策略对该问题进行求解。


在模型加速方面,Girshick还曾将DPM中的线性SVM分类器“编译”为一系列的级联决策桩(Decision Stump)分类器,在不牺牲精度的前提下,将DPM加速了10倍。值得一提的是,这种加速策略本质上是借鉴了VJ检测器快速检测人脸的技术思路。


在算法的后处理方面,DPM算法采用包围框回归和上下文信息集成这两个方法[10]-[12]进一步提升检测准确率。其中,包围框回归的主要作用是将检测得到的基滤波器以及部件滤波器所对应的包围框进行整合并利用线性最小二乘回归来得到最终精确的包围框坐标。上下文信息集成的作用在于利用全局信息对检测结果进行重新调整。从本质上来讲,上下文信息反映了各个类别的目标在图像中的联合先验概率密度分布,即哪些类别的目标可能同时出现,哪些类别的目标则不太可能同时出现。


虽然近几年基于深度学习的检测模型从精度上已远远超越了DPM,但DPM中的很多思想直到今天依然重要,例如混合模型、难样本挖掘、包围框回归、上下文信息的利用等。时至今日,这些方法还都深深影响着目标检测领域的发展。


03

基于深度学习的目标检测算法(上)

——基于Object Proposals的检测算法


Girshick曾提到[14]:“在过去的几年中(2011-2013),目标检测算法的发展几乎是停滞的,人们大多在低层特征表达基础上构建复杂的模型以及更加复杂的多模型集成来缓慢地提升检测精度”。既然深度卷积网络能够学习到非常鲁棒且具有表达能力的特征表示,那么为何不将其引入目标检测流程中用来提取特征呢?当卷积神经网络在2012年ImageNet分类任务[19]中取得了巨大成功后,Girshick等人抓住了机会打破僵局,于2014年率先提出了区域卷积网络目标检测框架(Regionswith CNN features,R-CNN)[14]。自此目标检测领域开始以前所未有的速度发展。


随着卷积神经网络层数的不断加深,网络的抽象能力、抗平移能力和抗尺度变化能力越来越强。对于图像分类任务来说这诚然是一件好事,然而对于检测任务来说却带来了另一个问题:目标包围框精准的位置越来越难以获得。由此便出现了一个矛盾:如果想让检测算法获得更强的平移不变性和尺度不变性,那就必须一定程度地牺牲特征在目标包围框位置和尺度变化上的敏感性,即协变性;相反,如果想要获得更精确的目标包围框定位结果,就必须在平移不变性和尺度不变性上做一些妥协。所以,如果想要将卷积网络有效应用于目标检测问题中,关键是如何有效解决深度网络的平移/尺度不变性和目标检测问题中平移/尺度协变性要求的矛盾[20]。这迫使人们不得不放弃基于特征图+滑动窗口这一套检测方案,从而将关注点转向寻找更加定位精准的目标候选框检测(Object Proposal Detection)算法上来。


在过去的几年里,伴随着深度学习目标检测算法的发展,有非常多的Object ProposalDetection算法被提出,例如Selective Search[22]、Edge Boxes[23]、BING[24]等等。需要注意的是,基于Object Proposal并非是深度学习检测算法的专属,早在传统的手工特征时期,Uijlings等人[22]就尝试过使用Selective Search + 词袋(Bag of Words)特征进行目标检测。


下面将分别介绍几种基于Object Proposal的深度学习目标检测算法。


【代表算法1】Regions with CNN Features (R-CNN)[14]

【代表算法2】Spatial Pyramid Pooling Networks (SPPNet)[15]

【代表算法3】Fast-RCNN[16]

【代表算法4】Faster-RCNN[17]

【代表算法5】Feature Pyramid Networks


R-CNN:


R-CNN[14]使用了一种非常简单的检测策略,首先在图像中提取Object Proposals,接下来把每个Proposal缩放到相同的大小后使用在ImageNet上训练好的Alexnet网络[19]提取特征,最后再使用SVM分类器进行虚警排除和类别判断。R-CNN在VOC07数据集上取得了惊艳的效果,mAP由33.7%(DPM-v5[25])提升至58.5%。虽然R-CNN取得了很大的进步,但其缺陷也很明显:首先,其训练是多阶段的,较为繁琐和耗时;其次,由于在高密度的候选区域上反复进行特征提取,其检测速度很慢(GPU下每张图40秒,640×480像素)。后来Kaiming He等人提出了SPPNet[15],很好地解决这个问题。


SPPNet:


Kaiming He等人在2014年提出了SPPNet[15],用来解决CNN网络提取特征时要求输入图像尺寸固定的问题。与传统的CNN网络模型相比,其创新点是,在卷积层和全连接层之间添加了一个空间金字塔池化(Spatial Pyramid Pooling, SPP)层。SPPNet可做到不经过候选区域的缩放操作就能实现任意大小、任意长宽比区域的特征提取。在不损失精度的前提下,SPPNet是R-CNN的检测速度的38倍。SPPNet有效解决了候选区域计算冗余的问题,但是依然存在一些缺陷:首先,其训练是仍然是多阶段的;其次,SPPNet在微调网络时,只对其全连接层进行了微调,影响了特征的准确性。后续提出的Fast R-CNN检测器进一步地解决了这些问题。


Fast-RCNN:


2015年,Girshick等人在R-CNN和SPPNet的基础上又提出了FastR-CNN检测器[16]。Fast-RCNN最大的特点在于实现了一种多任务学习方式,实现了在网络微调的同时,对目标分类和包围框回归的同步训练,且训练速度是R-CNN的9倍,检测速度是R-CNN的200倍。在VOC2007数据集上,Fast-RCNN将mAP由RCNN的58.5%提升至70.0%。Fast-RCNN成功地结合了R-CNN和SPPNet两者的优点,但还是需要事先使用外部算法来提取目标后选框,不能够实现端到端的处理。那能不能将候选区域检测这一操作同样也交给网络去做呢?后来的Faster R-CNN解决了这个问题。


Faster-RCNN:


同样是在2015年,在Fast-RCNN被提出后不久,Shaoqing Ren、Kaiming He以及Girshick等人又很快提出了Faster-RCNN算法[17]。Faster-RCNN是第一个真正意义上的端到端的深度学习检测算法,也是第一个准实时(17帧/秒,640×480像素)的深度学习目标检测算法。Faster-RCNN在VOC07上在此将mAP由70.0%提升至78.8%。Faster-RCNN最大的创新点在于设计了候选区域生成网络(RegionProposal Network,RPN),并在其中设计了“多参考窗口”的机制,将Selective Search或Edge Boxes等外部Objectproposal检测算法融合到同一个深度网络中实现。从R-CNN到Fast RCNN再到Faster-RCNN,候选区域生成,特征提取,候选目标确认和包围框坐标回归逐渐被统一到同一个网络框架之中。检测精度由R-CNN的58.8%提升至Faster-RCNN的78.8%,检测速度也由每帧几十秒[14]提升至准实时检测[17]速度。


Feature Pyramid Networks:


在2017年,Tsung-Yi Lin、Piotr Dollar、Ross Girshick和Kaiming He等人又在Faster RCNN的基础上提出了Feature Pyramid Networks(FPN)检测算法。原有的目标检测算法通常都是只采用顶层特征做检测,原因是网络顶层特征的语义信息比较丰富。然而,虽顶层特征的语义信息丰富,但其中的目标位置信息却比较粗略,不利于目标包围框的准确定位;相反,虽然底层特征的语义信息比较少,但其中目标的位置信息却非常准确。因此,FPN的主要思想就是在网络前馈结束后,又将网络中最顶层的特征图像逐层地反馈并与前层的特征图进行融合,在此基础上,再从网络中不同深度的位置引出多个检测端口对其中的不同尺度的目标进行检测。由于网络在前馈过程中天然形成了金字塔形状的特征图,所以FPN对小目标以及尺度分布较大的目标具有天然的检测优势。FPN选择在比VOC规模和难度更大的MSCOCO数据集上进行了测试,取得了当时最佳的检测效果。


04

基于深度学习的目标检测算法(下)

——基于一体化卷积网络的检测算法


最近两年基于深度学习的目标检测算法的发展有两条主线,第一条是基于Object Proposal的检测主线,这条主线基本是按照R-CNN >> SPPNet >> Fast-RCNN >> Faster-RCNN >> FPN发展的;另一条是最近一年提出的一体化卷积网络的检测主线,这条主线基本是按照YOLO >> SSD >> Retina-Net发展的。在第二条主线中,人们抛弃了传统的粗检测+精检测的检测流程,经过单次检测即可直接得到最终的检测结果,因此有着更快的检测速度。


一体化卷积网络检测算法最早可以追溯到上世纪九十年代[30]-[31],当时Yann Lecun等人将其命名为“空间位移神经网络(Space Displacement Neural Network)”。最近两年,一体化卷积网络检测算法受到了更多人的关注,在未来也会有更大的发展空间。下面将分别对这条主线下的YOLO、SSD、Retina-Net三种典型算法进行介绍。


【代表算法1】You Only Look Once (YOLO) [18]

【代表算法2】Single Shot MultiBox Detector (SSD) [28]

【代表算法3】Retina-Net[29]


YOLO:


YOLO[18]是第一个一体化卷积网络检测算法,由Joseph和Girshick等人在2015年提出。该算法最大的优势是速度快,彻底解决了基于深度学习速度上的痛点。该算法的增强版本在GPU上速度为45帧/秒,快速版本速度为155帧/秒(640×480像素)。YOLO是“You Only LookOnce”的缩写,从算法的名字就能够看出来作者彻底放弃了Proposal这一概念,直接将整张图像作为网络的输入,并仅通过一次前向传播直接得到目标包围框的位置和目标的类别。YOLO虽然有着非常快的检测速度,但其精度与Faster-RCNN相比有所下降,尤其是小目标检测效果较差,其定位的准确度也稍有不足。这主要是由于YOLO没有采用类似FasterRCNN中的“多参考窗口”的机制处理多尺度窗口问题。后来提出的SSD算法改善了这些问题。


SSD:


SSD[28]算法由Wei Liu等人于2015年提出。SSD算法吸收了YOLO速度快和RPN定位精准的优点,采用了RPN中的多参考窗口技术,并进一步提出在多个分辨率的特征图上进行检测。SSD在VOC07上取得了接近Faster-RCNN的准确率(mAP=72%),同时保持了极快的检测速度(58帧/秒,640×480像素)。SSD与Faster-RCNN中不同之处有两点:首先,SSD是在多个尺度下的特征图上设置多个参考窗口进行后选框的检测,而Faster-RCNN仅仅是在一个尺度上进行处理;其次,Faster-RCNN是先利用提取目标后选框,然后再在后选框基础上利用检测网络和ROI Pooling进行后续判断,SSD则直接分别在多个尺度的特征图上进行多尺度检测和包围框坐标回归。此外,SSD在训练过程中,还采用了难样本挖掘操作来对图像中难样本进行聚焦。


Retina-Net:


一直以来,虽然基于一体化卷积网络的检测模型的检测速度都明显快于基于Object Proposals的检测算法,其检测精度却一直略逊于后者。Tsung-Yi Lin、 Priya Goyal、Ross Girshick以及Kaiming He等人对其背后的原因进行了研究,并与2017年提出了Retina-Net[29]检测模型。Tsung-Yi Lin等人认为图像中极为不均衡的目标-背景数据分布才是导致一体化卷积网络检测精度较低的主要原因。Retina-Net对传统的交叉熵损失函数进行修正,提出了“聚焦损失函数(Focal Loss)”。通过降低网络训练过程中简单背景样本的学习权重,Retina-Net可以做到对难样本的“聚焦”和对网络学习能力的重新分配,从而使一体化卷积网络检测模型的检测速度和精度全面超越基于Object Proposals的检测模型。事实上,SSD中的难样本挖掘操作也与Focal Loss有着类似思想和效果。


05

目标检测中的关键技术


近年来,尤其是深度学习出现之后,自然图像目标检测领域取得了一系列突破性的进展。早期的目标检测算法[3],[1]-[2],[8]-[12]通常将检测视为一个在图像多个尺度上“滑动窗口遍历+目标背景二分类”的问题。因此,人们常常重点解决特征的表达能力、特征提取的时间效率、多尺度问题的加速方法等问题。最近几年提出的基于深度学习的检测算法[12]-[15],[25]则通常是在以下几个问题上寻求技术突破:


【关键技术1】 多尺度检测方法

【关键技术2】 包围框坐标回归

【关键技术3】 加速策略


多尺度检测方法:


目标检测中的“多尺度”问题包含了“不同大小”和“不同长宽比”两方面的内容。早期的目标检测算法,如VJ检测器检测人脸、HOG检测器检测行人都是针对特定长宽比目标所设计的检测算法,所以并没有考虑“不同长宽比”这一层面的问题;而中后期的目标检测算法开始更多关注于一般性目标的通用检测算法,即开始关注检测“不同长宽比”的目标。下图显示了自然图像目标检测的多尺度检测方式发展流程。


目标检测的多尺度检测方式发展流程


从近20年的目标检测工作来看,处理多尺度的问题采用的方法经历了从最早的“多尺度积分图特征”,到之后的“特征/滤波器金字塔遍历”,再到后来的“Object Proposals”,最后到如今的依靠“深度网络暴力回归”四个阶段的发展历程。


早期检测算法如VJ检测器在处理多尺度问题时,并没有采用“建塔”这一最直观的思路。这是因为这种做法在计算能力有限的时代无法承受如此大的计算量。所以,VJ检测器不得不采取积分图这一种巧妙的方法来解决该问题。在VJ检测器出现之后的几年里,随着硬件计算能力不断提升,更多的人尝试使用更加复杂且表达能力更强的特征进行目标检测。但遗憾的是,高度非线性的特征表示如HOG、LBP等并不具有积分图特征类似的性质,所以人们开始把思路转向了“构建金字塔+滑窗遍历”这一最直观的处理方式。从HOG检测器到DPM,甚至后来的深度学习检测算法Overfeat[32]都是通过这种方式构建的。


需要强调的是,通过建塔的方式只能处理特定长宽比目标的检测问题,例如人脸检测、行人检测等。对于如VOC、MSCOCO等一般性目标检测问题,如果构建不同长宽比、不同尺度的特征金字塔,其计算量直到今天也是难以接受的。不过,DPM虽然没有构建不同长宽比的金字塔,但却可以处理一般性目标检测问题。这是因为DPM采用了Mixture Model这种特殊的处理策略。


随着人们需要检测的目标类别越来越多,目标形态越来越多样化,人们开始思考,是否能够利用一种统一的“粗检测”模型来处理不同长宽比和不同类别的目标?Object Proposals提供了一种很好的解决思路。Object Proposal的检测指的是利用较低的计算量实现对图像中所包含的一般性目标的包围框进行准确定位(不局限与具体的目标类别,也不局限于固定的长宽比)。Object Proposals在近两年基于深度学习的目标检测算法中起到了非常重要的作用。从R-CNN到Fast-RCNN再到Faster-RCNN,Object Proposals从最开始独立的算法模块逐渐演变到最后与网络融为一体。


随着GPU计算性能的提升,人们处理多尺度问题的方法变得越来越直接越来越暴力,而这种暴力在基于一体化卷积网络的检测方法(如YOLO)中达到了顶峰。采用深度网络暴力回归解决多尺度问题的思想非常简单,即直接利用深度网络在目标对应位置提取的特征对其包围框的长宽进行回归。这种做法的优点是设计简单,计算量小,先提条件是图像感受野足够大且深度特征表达能力足够强,缺点是对小目标的包围框定位不够准确。


包围框坐标的回归:


特征的平移、尺度不变性以及定位的准确性一直以来都存在着矛盾。早期的检测算法大多采用低层手工特征,更多关注于图像的边缘、轮廓等信息。这类特征的平移、尺度不变性较差,但对目标进行精确定位时有着天然的敏感性,可对目标边界进行准确的定位。而基于深度学习的检测算法中采用的深度特征由于其具有更强的平移不变性和尺度不变性,随之带来的问题是对目标包围框定位的先天能力不足。下图显示了目标检测中包围框回归技术的发展过程。


对于早期基于手工特征的检测算法以及后来基于Object Proposals的检测算法(如DPM、R-CNN、Fast-RCNN)而言,包围框坐标回归仅仅是作为一种刷榜时提分的手段,这种操作对于检测问题仅仅起到了锦上添花的作用,可有亦可无。然而从Faster-CNN开始,情况发生了转变,这是由于包围框回归不再是一个单独的后处理模块,而是集成在了网络中,并采用多任务损失函数同分类任务一同进行训练。现如今包围框回归已经是算法流程中不可替代的一个标准环节。最近的一些算法在包围框回归精度的提升方面取得了一些成果,比如多次包围框坐标修正[40]、以及概率推断在包围框坐标预测中的应用[41]等。



目标检测的包围框回归技术发展流程

 

加速策略:


目标检测算法的加速一直以来都是该领域一个非常重要的问题。一般来讲,人们对算法的加速通常体现在两个层面,第一个层面是从算法原理角度出发,设计低计算复杂度的算法,并尽可能减少重复计算的开销;第二个层面是从硬件实现层面出发,采用更高并行粒度的算法,并通过多核并行计算提升计算速度,如利用GPU加速。早期的检测算法在目标检测的计算原理方面做了很多加速工作,而后期的深度学习的检测算法的计算量虽然比早期算法要大,但依靠硬件计算能力的提升已经可以轻松实现实时检测的速度。下图显示了自然图像目标检测算法的常见加速策略。



目标检测算法的加速策略一览

 

通常在目标检测算法当中,特征提取部分的计算开销较其他环节的比重最大,所以近年来人们在特征提取层面的加速工作最多,加速效果也最为显著。传统的基于滑动窗口的检测器会在每个尺度的图像上以一定步长移动,并在每个窗口上做特征提取操作。由于相邻滑窗之间通常有很大面积的交叠,因此交叠部分的特征就会存在大量的计算重复。为了解决这个问题,通常在滑窗之前,都会在图像上只整体计算一次特征图(Feature Map),以避免后面滑窗时对特征进行重复提取。事实上,传统目标检测算法中的“图像金字塔”也可以理解为“特征金字塔”,HOG检测器和DPM都是在特征金字塔上进行检测的。值得一提的是,最近几年基于深度学习的目标检测算法,除了R-CNN之外,其余的也都利用了该加速思想。


除了特征图之外,积分图也是早期目标检测算法中常见的加速策略。利用积分图特征进行加速的思想前面在介绍VJ检测器已经介绍过,这里再进行一些更加深入的探讨。利用积分图进行算法加速的本质是利用了卷积操作的积分微分的可分离性[1]-[2]:


如果个g(x)'是稀疏的,那么利用该性质就可以加速计算。事实上,早在VJ检测器之前(1998年),LeCun等人就深入探讨过利用该性质对CNN进行过加速[39],并取得了10倍以上的加速效果。积分图后来也有被用于加速行人检测算法的HOG特征提取过程,在不损失精度的前提下取得了几十倍的加速效果[7][33]。


未完待续……


参考文献


[1]  Viola P, Jones M. Rapid Object Detection Using a Boosted Cascade of SimpleFeatures [C]. IEEE Conference on Computer Vision and Pattern Recognitino, 2001,1:511.


[2] Viola P, Jones M J. Robust Real-Time Face Detection [J]. IEEEInternational Conference on Computer Vision 2004:747-747.


[3] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection [C].IEEE Computer Society Conference on Computer Vision & Pattern Recognition.IEEE Computer Society, 2005:886-893.


[4] Turk M, Pentland A. Eigenfaces for recognition [J]. Journal of CognitiveNeuroscience, 1991, 3(1):71-86.


[5] Shotton J, Blake A, Cipolla R. Multiscale Categorical Object RecognitionUsing Contour Fragments [J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2008, 30(7):1270-81.


[6] Opelt A, Pinz A, Zisserman A. A Boundary-Fragment-Model for ObjectDetection [C]. European Conference on Computer Vision 2006. Springer BerlinHeidelberg, 2006:575-588.


[7] Zhu Q, Yeh M C, Cheng K T, et al. Fast Human Detection Using a Cascadeof Histograms of Oriented Gradients [C]. IEEE Computer Society Conference onComputer Vision & Pattern Recognition. IEEE, 2006:1491-1498.


[8] Felzenszwalb P, Mcallester D, Ramanan D. A Discriminatively Trained, Multiscale,Deformable Part Model [C]. IEEE Computer Society Conference on Computer Vision &Pattern Recognition. 2008, 8::1-8.


[9] Felzenszwalb P F, Girshick R B, Mcallester D. Cascade Object Detection withDeformable Part Models [C]. IEEE Conference on Computer Vision & PatternRecognition. IEEE Computer Society, 2010:2241-2248.


[10] Forsyth D. Object Detection with Discriminatively Trained Part-BasedModels [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010, 32(9):1627-45.


[11] Girshick R B, Felzenszwalb P F, Mcallester D. Object Detection withGrammar Models[J]. Nips, 2010, 33:442-450.


[12] Girshick R B. From Rigid Templates to Grammars: Object Detection with StructuredModels [J].A Dissertation Submitted to the Faculty of the Division of the PhysicalSciences, 2012.


[13] Girshick R, Iandola F, Darrell T, et al. Deformable Part Models Are ConvolutionalNeural Networks [J]. IEEE Conference on Computer Vision & PatternRecognition, 2015:437-446.


[14] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies forAccurate Object Detection and Semantic Segmentation [C]. Computer Vision andPattern Recognition. IEEE, 2013:580-587.


[15] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in DeepConvolutional Networks for Visual Recognition [J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2015, 37(9):1904-16.


[16] Girshick R. Fast R-CNN [OL]. arXiv:1504.08083, 2015.


[17] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks [OL]. arXiv:1506.01497, 2015.


[18] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified,Real-Time Object Detection [OL]. arXiv: 1506.02640, 2016.


[19] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with DeepConvolutional Neural Networks [J]. Advances in Neural Information ProcessingSystems, 25(2):2012.


[20] Dai J, Li Y, He K, et al. R-FCN: Object Detection via Region-based FullyConvolutional Networks [OL]. arXiv: 1605.06409, 2016.


[21] Hosang J, Benenson R, Dollar P, et al. What Makes for EffectiveDetection Proposals? [J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2016, 38(4):814-830.


[22] Van d S K E A, Uijlings J R R, Gevers T, et al. Segmentation as SelectiveSearch for Object Recognition [C]. Proceedings IEEE International Conference onComputer Vision. 2011:1879-1886.


[23] Zitnick C L, Dollár P. Edge Boxes: Locating Object Proposals from Edges[C]. European Conference on Computer Vision, 2014:391-405.


[24] Cheng M M, Zhang Z, Lin W Y, et al. BING: Binarized Normed Gradients forObjectness Estimation at 300fps [J]. IEEE International Conference on ComputerVision 2014:3286-3293.


[25] Girshick R., Felzenszwalb P., and McAllester D. Discriminatively TrainedDeformable Part Models, release 5 [OL].http://www.cs.berkeley.edu/˜rbg/latent-v5/.


[26] Zeiler M D, Fergus R. Visualizing and Understanding ConvolutionalNetworks [J]. 2014, 8689:818-833.


[27] Simonyan K, Zisserman A. Very Deep Convolutional Networks forLarge-Scale Image Recognition [J]. Computer Science, 2014.


[28] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector [OL].arXiv: 1512.02325, 2016.


[29] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense ObjectDetection [OL]. arXiv: 1708.02002, 2017.


[30] Vaillant R, Monrocq C, Cun Y L. An Original Approach for the Localizationof Objects in Images [C]. International Conference on Artificial NeuralNetworks. 1993:26-30.


[31] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based Learning Applied to DocumentRecognition [J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.


[32] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated Recognition,Localization and Detection using Convolutional Networks [C]. InternationalConference on Learning Representations, 2013.


[33] Benenson R, Mathias M, Timofte R, et al. Pedestrian Detection at 100 Framesper Second [C]. IEEE International Conference on Computer Vision2012:2903-2910.


[34] Alexe B, Deselaers T, Ferrari V. What is an Object? [C]. IEEEInternational Conference on Computer Vision and Pattern Recognition,2010:73-80.


[35] Ponttuset J, Arbelaez P, Barron J, et al. Multiscale CombinatorialGrouping for Image Segmentation and Object Proposal Generation [J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2015:1-1.


[36] Kong T, Yao A, Chen Y, et al. HyperNet: Towards Accurate Region ProposalGeneration and Joint Object Detection [C]. IEEE International Conference on ComputerVision and Pattern Recognition. 2016:845-853.


[37] Ghodrati A, Diba A, Pedersoli M, et al. DeepProposal: Hunting Objects byCascading Deep Convolutional Layers [C]. IEEE International Conference on ComputerVision and Pattern Recognition. 2015:2578-2586.


[38] Dollar P, Appel R, Belongie S, et al. Fast Feature Pyramids for ObjectDetection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014, 36(8):1532-45.


[39] Simard P Y, Bottou L, Haffner P, et al. Boxlets: A Fast Convolution Algorithmfor Signal Processing and Neural Networks [C]. Conference on Advances in NeuralInformation Processing Systems II. MIT Press, 1999:571-577.


[40] Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directionsfor Accurate Object Detection [J]. IEEE International Conference on ComputerVision. 2015:2659-2667.


[41] Gidaris S, Komodakis N. LocNet: Improving Localization Accuracy forObject Detection [C]. IEEE Conference on Computer Vision and PatternRecognition. 2016:789-798.