图像处理哪方面最火

2019-08-16 08:48:45 weixin_42137700 阅读数 939
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

2019-08-15 21:39:20

随着计算机软件、硬件技术的日新月异的发展和普及,人类已经进入一个高速发展的信息化时代,人类大概有80%的信息来自图像,科学研究、技术应用中图像处理技术越来越成为不可缺少的手段。安防行业已经进入一个崭新的时代,高清、智能与大数据和云技术的广泛结合应用,成为时代新的话题。随着而来的是,视频图像处理技术也逐渐成熟起来,只有这样才能切合行业技术发展,为此,对于视频图像处理技术的研究成为安防行业值得重视的领域。

视频图像处理技术的应用价值

视频图像处理技术简而言之就是用计算机对视频数字图像进行处理,其本质是一种信号处理过程,而且是离散信号处理。在视频监控行业为什么要进行图像处理呢?那我们就需要分析视频图像处理后所带来的优势有哪些?

其一,提高图像的视感质量,如进行图像的亮度、彩色变换,增强、抑制某些成分,对图像进行几何变换等,以改善视频图像的质量。

其二,提取视频图像中所包含的某些特征或特殊信息,这些被提取的特征或信息往往为计算机分析图像提供便利。提取特征或信息的过程是计算机或计算机视觉的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。

其三,视频图像增强与复原。图像增强的目的是将图像转换为更适合人和机器的分析的形式。常用的增强方法有:灰度等级直方图处理;干扰抵制;边缘锐化;伪彩色处理。图像复原的目的与图像增强相同,其主要原则是为了消除或减少图像获取和传输过程中造成的图像的损伤和退化,这包括图像的模糊、图像的干扰和噪声等,尽可能的获得原来的真实图像。无论是图像增强还是图像的复原,都必须对整副图像的所有像素进行运算,出于图像像素的大数量考虑,其运算也十分的巨大。编码的目的是在不改变图像的质量基础上压缩图像的信息量,以满足传输与存储的要求。编码多采用数字编码技术对图像逐点的进行加工。这一点在公安针对视频图像来还原细节中经常遇到。

其四,图像的分析。从图像中抽取某些有用的度量、数据和信息,以的到某种数值结果。图像分析用图像分割方法抽取图像的特征然后对图像进行符号化的描述,这种描述不仅能对图像是否存在某一特定的对象进行回答,还能对图像内容进行详细的描述。

其五,能使图像再现性。数字图像处理与模拟图像处理的根本不同在于,它不会因图像的存储、传输或复制等一系列变换操作而导致图像质量的退化,只要图像在数字化时准确地表现了原稿,则数字图像处理过程始终能保持图像的再现。

其六,灵活多变的处理功能。针对模拟技术而言,我们现在的视频监控图像处理技术可以把监控画面分割为任意大小的二维数组,这意味着图像的数字化精度可以达到满足任一应用需求,符合行业高清化趋势。

其七,适用面宽。视频监控图像可以来自多种信息源,比如可以是银行画面,也可以是机场或者海事等远距离监控,不论是来自哪个行业的信息源的图像只要被变换为数字编码形式后,均是用二维数组表示的灰度图像组合而成,

其八,灵活性高。数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。

不过,视频图像处理技术占用的频带较宽,,所以在成像、传输、存储、处理、显示等各个环节的实现上,技术难度较大,成本也高,这就需要我们了解制约视频图像处理技术的因素。

视频图像处理技术的主流技术

视频图像处理就技术而言涉及的知识面十分广阔,具体方法种类繁多,应用也极为普遍,但如果在安防行业角度分析,该技术的主要内容包括三大部分:图像压缩;增强和复原;匹配、描述和识别。由于超高清的要求,在图像压缩方面H.265自然优势大,由于关于H.265的技术专题已经阐述了和视频图像处理的关系,本文就不在这方面做具体介绍。为此,在剩下的两部分我们目前主要关注的视频图像处理技术有以下几个方面:

智能分析处理技术

智能分析处理技术是目前中国安防行业较为关注的图像处理技术,该技术简而言之,就是发现图像中运动的物体,并对其进行跟踪、分析,及时发现异常行为,触发报警并采取其他措施进行干预。智能分析处理技术是基于监控图像处理软件包而开发的,主要有以下几种图像处理形式:

1、将(运动)目标从视频图像中分离出来。2、对目标进行行为分析,判定其运动的方向、方式,并能发现和告警异常的行为;产生目标的运动轨迹,并能进行目标的自动跟踪。3、实现视频语义的解析,图像处理分析的高层次。通过对一个图像序列作出分析,得出其包含的真实信息,可以与话音的语义解析结合起来,逐步实现视频语义的解析。4、在复杂环境下实现目标的分离、行为分析和运动跟踪,特别是实现多目标的跟踪。

上述几点早已有实际应用(比如,单绊线入侵检测、多绊线、围栏入侵、进入/退出区域检测、徘徊检测、遗留物检测、物体搬移检测、物体出现检测、物体消失检测、人群密度、人群突变、奔跑检测、逆向检测、人流量、火焰检测、烟雾检测、场景变化、单球机PTZ自动跟踪等),但基本上是在简单环境下,针对少数目标进行智能化的图像处理。在复杂环境视频监控环境(多人流、多移动、恶劣天气)下实现这些功能,是图像智能分析处理技术真正价值所在。要解决多个图像的综合分析,图像间目标的关联,目标跟踪的连续性,这都是市场应用的迫切需要,也是我们亟待解决的问题。

宽动态技术

宽动态技术是松下第一个在监控行业尝试,那是1977年它的宽动态范围是40倍,引入国内受到业界追捧是在2005年的深圳安博会。两年后,美国PIXIM方案也在市场上广为流行,成为宽动态的另一种选择。

宽动态视频图像处理技术主要是用来解决摄像机在宽动态场景中采集的图像出现亮区域过曝而暗区域曝光不够的现象。简而言之,宽动态技术可以使场景中特别亮的区域和特别暗的区域在最终成像中同时看清楚。这种技术是安防行业应为普遍的视频图像处理技术,经过十多年的市场洗礼和技术提升,目前还是存在一些不足。一是源自它在高亮区域短曝特征,会导致在日光灯场景下亮区域出现横条纹闪烁,这是常见的日光灯工频引起的闪烁现象,因为在亮区域的曝光时间非常短,没有达到抗闪所需的最低曝光时间;二是源自它在暗区域长曝特征,当物体进行高速运动时会因过长的曝光时间而产生拖影现象。

透雾处理

这个技术在2010年随着高清的到来开始在国内应用,当时日立推出的机芯产品就主打透雾功能。该技术是可实时处理各种雾霾天气中的视频图像,去除由雾霾造成的景象朦胧、模糊、看不清或看不见的情况,能够显著增强视频图像的细节信息,使原来被遮隐的图像细节得以充分展现,并保持了原有的色彩色调,使视频图像变得极其明亮、通透和清晰,因而获得了良好的图像质量与视觉感受。

无损实时放大处理

可实时对视频图像进行各种倍率的放大,放大的视频图像没有任何模糊和马赛克,并能够对原视频图像的细节部分予以充分的保留。

强光抑制处理

可实时对视频图像中的强光亮点或区域进行抑制,使强光范围和亮度减小,恢复被强光散射遮掩的目标景物的轮廓和色彩,获得清晰的视频图像。

去除模糊处理

可处理图像中的散焦模糊和运动模糊等,使被观察景物图像变得清晰。

前三种可以说是目前安防行业关注的三种视频图像处理技术,后三者的图像处理由于各个厂家大多采用市面上几个主流的产品方案,以至于在产品性能表现时都没有多大优劣区别。

视频图像处理技术在安防的要求特殊

由于计算机的处理速度极快,且数字信号具有失真小、易保存、易传输、抗干扰能力强等特点,因而计算机图像处理的应用十分广泛,包括航空航天、遥测技术、医疗器械、工业自动化检测、安全识别、安防监控、娱乐媒体等各大领域。每一个应用领域都有其领域的特殊性要求,安防监控行业应用也有其固有的特殊性。

对图像清晰度要求较高。在治安监控现场,公安机关往往需要通过监控录像来辨认嫌疑人、证据等。一般清晰度不高的视频都达不到这种要求。在交通监控现场,交警需要通过监控图像来识别车牌、违章行为、驾驶人等要求,模糊的图像在这种场合根本无法应用。

不同的行业监控,对图像要求的差异性。比如医疗监控,对图像的色彩还原性要求比较高。智能交通监控,对摄像机夜间照度和抓拍速度要求比较高,要求能清晰辨别车牌。在无人值守监控,需要设备在无人看管的条件下能长期稳定的工作。

户外安装,无人看守。在安防领域,大多情况设备需要安装在室外,设备需要经受常年的风吹日晒。要经历常年温度、湿度、盐度、辐射等自然条件的影响。电子设备自身的老化的速度会比其他领域要相对快一些。摄像机镜头、电子设备、传输线路等设施的老化会导致图像越来越模糊。

海量视频路数的要求。在大型平安城市监控项目中,视频路数会达到上万路,甚至更多路。如此海量的视频路数,对网络带宽、存储设备都提出了很高的要求。所以在视频监控领域都期望视频编码的码率压缩比达到较高水平,从而降低对带宽和容量的要求。这就导致在视频编码环节产生更多的信息丢失,从而导致

图像模糊

安防的这些特殊应用场所,都会导致图像清晰度的下降,反过来又对图像清晰度有很高的要求,势必会导致模糊图像处理技术在这里有广阔的应用前景。

视频监控图像处理技术发展趋势

之前也介绍了智能视频分析和宽动态在技术应用中还是存在一些不足或者说发展空间,比如在提高精度的同时着重解决处理速度的问题,巨大的信息量和数据量和处理速度仍然是一对主要矛盾。除此之外,视频监控图像处理技术由于部分设备性能不足、客观条件限制等因素,在实际的视频监控应用中,仍会出现视频图像模糊不清、关键信息捕捉不到等问题。而在视频图像处理的过程中,由于操作技术问题或者客观因素等,给视频图像处理技术的应用带来一些负面影响,降低了处理技术的水平和质量。所以,我们在探究该技术的未来发展趋势就便得十分有意义。有几个趋势如下:

其一,在大数据时代,未来数据图像技术强调高清晰度、高速传输、实时图像处理、三维成像或多维成像、智能化、自动化等方向发展。

其二,智能化方面,力争使计算机识别和理解能够按照人的认识和思维方式工作,能够考虑到主观概率和非逻辑思维。这里有一点需要指出,AI在智能化方面可以做图像数据与内容的提取与分析,但是并不能在视频图像处理方面做文章。

其三,未来视频图像处理技术强调操作、运用的方便性,图像处理功能的集中化趋势是必然会存在的。所以,硬件芯片的开发研究十分重要,如Thomson公司采用Systolic结构设计了把图像处理的众多功能固化在芯片上。

结束语

图像处理技术起源于20世纪20年代,当时通过海底电缆从英国伦敦到美国纽约采用数字压缩技术传输了第一幅数字照片。许多年过去,视频图像处理技术被安防行业大量应用,技术更新日新月异。如果把图像处理当做一个细节的话,那么,细节将决定成败,监控行业亦如此。

2018-01-29 10:43:26 zhu_hongji 阅读数 1396
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

转自http://blog.csdn.net/passball/article/details/42805269

1. 数学

我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研的三门课,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学数目了。


2. 信号处理

图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。


2.1经典信号处理

信号与系统(第2版)  Alan V.Oppenheim等著 刘树棠译

离散时间信号处理(第2版)  A.V.奥本海姆等著 刘树棠译

数字信号处理:理论算法与实现胡广书 (编者)

 

2.2随机信号处理

现代信号处理 张贤达著

统计信号处理基础:估计与检测理论Steven M.Kay等著 罗鹏飞等译

自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

 

2.3 小波变换

信号处理的小波导引:稀疏方法(原书第3版)  tephane Malla著, 戴道清等译

 

2.4 信息论

信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译


3. 模式识别

Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

模式识别(英文版)(第4版) 西奥多里德斯著

Pattern Classification (2nd Edition) Richard O. Duda等著

Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

模式识别(第3版) 张学工著


4. 图像处理与计算机视觉的书籍推荐

图像处理,分析与机器视觉 第三版Sonka等著 艾海舟等译

Image Processing, Analysis and Machine Vision

这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。


数字图像处理 第三版 冈萨雷斯等著

Digital Image Processing

数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。


计算机视觉:理论与算法 RichardSzeliski著

Computer Vision: Theory and Algorithm

微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。


Multiple View Geometry in Computer Vision 第二版Harley等著

引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到电子版。


计算机视觉:一种现代方法 DAForsyth等著

Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了,还是值得一读。第二版已经在今年(2012年)出来了,在iask上可以找到非常清晰的版本,将近800页,补充了很多内容。期待影印版。


Machine vision: theory,algorithms, practicalities 第三版 Davies著

为数不多的英国人写的书,偏向于工业。


数字图像处理 第四版 Pratt著

Digital Image Processing

写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。


5 小结

罗嗦了这么多,实际上就是几个建议:

(1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。

(2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。

(3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

图像处理与计算机视觉:基础,经典以及最近发展(3)计算机视觉中的信号处理与模式识别

Last Update: 2012-6-23


从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法,按照字母顺序排的序。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868770

1.  Boosting


Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。

Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。


[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

[1998] Boosting the margin A new explanation for the effectiveness of voting methods

[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection

[2003] The Boosting Approach to Machine Learning An Overview

[2004 IJCV] Robust Real-time Face Detection


2. Clustering


聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。


[1989 PAMI] Unsupervised Optimal Fuzzy Clustering

[1991 PAMI] A validity measure for fuzzy clustering

[1995 PAMI] On cluster validity for the fuzzy c-means model

[1998] Some New Indexes of Cluster Validity

[1999 ACM] Data Clustering A Review

[1999 JIIS] On Clustering Validation Techniques

[2001] Estimating the number of clusters in a dataset via the Gap statistic

[2001 NIPS] On Spectral Clustering

[2002] A stability based method for discovering structure in clustered data

[2007] A tutorial on spectral clustering


3.  Compressive Sensing


最近大红大紫的压缩感知理论。


[2006 TIT] Compressed Sensing

[2008 SPM] An Introduction to Compressive Sampling

[2011 TSP] Structured Compressed Sensing From Theory to Applications


4. Decision Trees


对决策树感兴趣的同学这篇文章是非看不可的了。


[1986] Introduction to Decision Trees


5. Dynamical Programming


动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter


[1990 PAMI] using dynamic programming for solving variational problems in vision

[Book Chapter] Dynamic Programming


6.  Expectation Maximization


EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。


[1977] Maximum likelihood from incomplete data via the EM algorithm

[1996 SPM] The Expectation-Maximzation Algorithm


7.  Graphical Models


伯克利的乔丹大仙的Graphical Model,可以配合这Bishop的PRML一起看。


[1999 ML] An Introduction to Variational Methods for Graphical Models


8. Hidden Markov Model


HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。


[1989 ] A tutorial on hidden markov models and selected applications in speech recognition

[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hiddenMarkov models

[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

Hmm Chinese book.pdf


9.  Independent Component Analysis


同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。


[1999] Independent Component Analysis A Tutorial

[2000 NN] Independent component analysis algorithms and applications

[2000] Independent Component Analysis Algorithms and Applications


10. Information Theory


计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。


[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

[2010] An information theory perspective on computational vision


11.  Kalman Filter


这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。


[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

[1970] Least-squares estimation_from Gauss to Kalman

[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

[2000] The Unscented Kalman Filter for Nonlinear Estimation

[2001 Siggraph] An Introduction to the Kalman Filter_full

[2003] A Study of the Kalman Filter applied to Visual Tracking


12.  Pattern Recognition and Machine Learning


模式识别名气比较大的几篇综述


[2000 PAMI] Statistical pattern recognition a review

[2004 CSVT] An Introduction to Biometric Recognition

[2010 SPM] Machine Learning in Medical Imaging


13. Principal Component Analysis


著名的PCA,在特征的表示和特征降维上非常有用。


[2001 PAMI] PCA versus LDA

[2001] Nonlinear component analysisas a kernel eigenvalue problem

[2002] A Tutorial on Principal Component Analysis

[2004 PAMI] Two-dimensional PCA a new approach to appearance-based face representation and recognition

[2009] A Tutorial on Principal Component Analysis

[2011] Robust Principal Component Analysis

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


14.  Random Forest


随机森林


[2001 ML] Random Forests


15.      RANSAC


随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。


[2009 BMVC] Performance Evaluation of RANSAC Family


16.      Singular Value Decomposition

对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter

[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


17.  Sparse Representation


这里主要是Proceeding of IEEE上的几篇文章


[2009 PAMI] Robust Face Recognition via Sparse Representation

[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

[2010 PIEEE] Dictionaries for Sparse Representation Modeling

[2010 PIEEE] It's All About the Data

[2010 PIEEE] Matrix Completion With Noise

[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

[2011 SPM] Directionary Learning


18.   Support Vector Machines

[1998] A Tutorial on Support Vector Machines for Pattern Recognition

[2004] LIBSVM A Library for Support Vector Machines


19.  Wavelet

在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。


说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。


[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

[1996 PAMI] Image Representation using 2D Gabor Wavelet

[1998 ] FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS

[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

[2000 TCE] The JPEG2000 still image coding system_ an overview

[2002 TIP] The curvelet transform for image denoising

[2003 TIP] Gray and color imagecontrast enhancement by the curvelet transform

[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

[2003 TIP] The finite ridgelet transform for image representation

[2005 TIP] Sparse Geometric Image Representations With Bandelets

[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

[2010 SPM] The Curvelet Transform


图像处理与计算机视觉:基础,经典以及最近发展(4)图像处理与分析

Last update: 2012-6-3

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868771


1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

[1998 ICCV] BilateralFiltering for Gray and Color Images

[2008 TIP] AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal


2. Color

如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

[1991 IJCV] Color Indexing

[2000 IJCV] The EarthMover's Distance as a Metric for Image Retrieval

[2001 PAMI] Colorinvariance

[2002 IJCV] StatisticalColor Models with Application to Skin Detection

[2003] A review of RGBcolor spaces

[2007 PR]A survey ofskin-color modeling and detection methods

Gamma.pdf

GammaFAQ.pdf


3.Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE] Trends andperspectives in image and video coding


4.Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV] Vision and theAtmosphere

[2003 TIP] Gray and colorimage contrast enhancement by the curvelet transform

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastenhancement-part II

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastEnhancement-part I

[2007 TIP] TransformCoefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

[2009 TIP] A HistogramModification Framework and Its Application for Image Contrast Enhancement


5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

[1972] Bayesian-BasedIterative Method of Image Restoration

[1974] an iterative techniquefor the rectification of observed distributions

[1990 IEEE] Iterativemethods for image deblurring

[1996 SPM] Blind ImageDeconvolution

[1997 SPM] Digital imagerestoration

[2005] Digital ImageReconstruction - Deblurring and Denoising

[2006 Siggraph] RemovingCamera Shake from a Single Photograph

[2008 Siggraph]High-quality Motion Deblurring from a Single Image

[2011 PAMI]Richardson-Lucy Deblurring for Scenes under a Projective Motion Path


6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

[2008 Siggraph] SingleImage Dehazing

[2009 CVPR] Single ImageHaze Removal Using Dark Channel Prior

[2011 PAMI] Single ImageHaze Removal Using Dark Channel Prior


7. Denoising

图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion. II

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion

[1992] Nonlinear totalvariation based noise removal algorithms

[1994 SIAM] Signal andimage restoration using shock filters and anisotropic diffusion

[1995 TIT] De-noising bysoft-thresholding

[1998 TIP] Orientationdiffusions

[2000 TIP] Adaptivewavelet thresholding for image denoising and compression

[2000 TIP] Fourth-orderpartial differential equations for noise removal

[2001] Denoising  through wavelet shrinkage

[2002 TIP] The CurveletTransform for Image Denoising

[2003 TIP] Noise removalusing fourth-order partial differential equation with applications to medicalmagnetic resonance images in space and time

[2008 PAMI] AutomaticEstimation and Removal of Noise from a Single Image

[2009 TIP] Is DenoisingDead


8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

[1980] theory of edgedetection

[1983 Canny Thesis] findedge

[1986 PAMI] AComputational Approach to Edge Detection

[1990 PAMI] Scale-spaceand edge detection using anisotropic diffusion

[1991 PAMI] The design anduse of steerable filters

[1995 PR] Multiresolutionedge detection techniques

[1996 TIP] Optimal edgedetection in two-dimensional images

[1998 PAMI] Local ScaleControl for Edge Detection and Blur Estimation

[2003 PAMI] Statisticaledge detection_ learning and evaluating edge cues

[2004 IEEE] Edge DetectionRevisited

[2004 PAMI] Design ofsteerable filters for feature detection using canny-like criteria

[2004 PAMI] Learning toDetect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

[2011 IVC] Edge and lineoriented contour detection State of the art


9. Graph Cut

基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not flyChina Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

[2000 PAMI] Normalizedcuts and image segmentation

[2001 PAMI] Fastapproximate energy minimization via graph cuts

[2004 PAMI] What energyfunctions can be minimized via graph cuts


10.Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU] A Survey ofthe Hough Transform

[1989] A Comparative studyof Hough transform methods for circle finding

[1992 PAMI] Shapesrecognition using the straight line Hough transform_ theory and generalization

[1997 PR] Extraction ofline features in a noisy image

[2000 CVIU] RobustDetection of Lines Using the Progressive Probabilistic Hough Transform


11. Image Interpolation

图像插值,偶尔也用得上。一般来说,双三次也就够了

[2000 TMI] Interpolationrevisited


12. Image Matting

也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd] Image and VideoMatting A Survey

[2008 PAMI] A Closed-FormSolution to Natural Image Matting

[2008 PAMI] SpectralMatting


13.  Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994] The statistics ofnatural images

[2003 JMIV] On Advances inStatistical Modeling of Natural Images

[2009 IJCV] Fields ofExperts

[2009 PAMI] Modelingmultiscale subbands of photographic images with fields of Gaussian scalemixtures


14. Image Quality Assessment

在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

[2004 TIP] Image qualityassessment from error visibility to structural similarity

[2011 TIP] blind imagequality assessment From Natural Scene Statistics to Perceptual Quality


15.  Image Registration

图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

[1992 MIA] Image matching asa diffusion process

[1992 PAMI] A Method forRegistration of 3-D shapes

[1992] a survey of imageregistration techniques

[1998 MIA] A survey ofmedical image registration

[2003 IVC] Imageregistration methods a survey

[2003 TMI]Mutual-Information-Based Registration of Medical Survey

[2011 TIP] Hairisregistration


16. Image Retrieval

图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

[2000 PAMI] Content-basedimage retrieval at the end of the early years

[2000 TIP] PicToSeekCombining Color and Shape Invariant Features for Image Retrieval

[2002] Content-Based ImageRetrieval Systems A Survey

[2008] Content-Based ImageRetrieval-Literature Survey

[2010] Plant ImageRetrieval Using Color,Shape and Texture Features

[2012 PAMI] A MultimediaRetrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

CBIR Chinese

fundament of cbir


17. Image Segmentation

图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

[2004 IJCV] EfficientGraph-Based Image Segmentation

[2008 CVIU] Imagesegmentation evaluation A survey of unsupervised methods

[2011 PAMI] ContourDetection and Hierarchical Image Segmentation


18. Level Set

大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

[1995 PAMI] Shape modelingwith front propagation_ a level set approach

[2001 JCP] Level SetMethods_ An Overview and Some Recent Results

[2005 CVIU] Geodesicactive regions and level set methods for motion estimation and tracking

[2007 IJCV] A Review ofStatistical Approaches to Level Set Segmentation

[2008 ECCV] RobustReal-Time Visual Tracking using Pixel-Wise Posteriors

[2010 TIP] DistanceRegularized Level Set Evolution and its Application to Image Segmentation


19.Pyramid

其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

[1983] The LaplacianPyramid as a Compact Image Code


20. Radon Transform

Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

[1993 PAMI] Imagerepresentation via a finite Radon transform

[1993 TIP] The fastdiscrete radon transform I theory

[2007 IVC] Generalisedfinite radon transform for N×N images


21.Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

[1987] Scale-spacefiltering

[1990 PAMI] Scale-Spacefor Discrete Signals

[1994] Scale-space theoryA basic tool for analysing structures at different scales

[1998 IJCV] Edge Detectionand Ridge Detection with Automatic Scale Selection

[1998 IJCV] FeatureDetection with Automatic Scale Selection


22. Snake

活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

[1987 IJCV] Snakes ActiveContour Models

[1996 ] deformable modelin medical image A Survey

[1997 IJCV] geodesicactive contour

[1998 TIP] Snakes, shapes,and gradient vector flow

[2000 PAMI] Geodesic activecontours and level sets for the detection and tracking of moving objects

[2001 TIP] Active contourswithout edges


23.  Super Resolution

超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002] Example-BasedSuper-Resolution

[2003 SPM] Super-Resolution Image Reconstruction A Technical Overview

[2009 ICCV] Super-Resolutionfrom a Single Image

[2010 TIP] ImageSuper-Resolution Via Sparse Representation


24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE] OTSU Athreshold selection method from gray-level histograms

[2001 JISE] A Fast Algorithmfor Multilevel Thresholding

[2004 JEI] Survey overimage thresholding techniques and quantitative performance evaluation


25. Watershed

分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI] Watersheds indigital spaces an efficient algorithm based on immersion simulations

[2001]The WatershedTransform Definitions, Algorithms and Parallelizat on Strategies

2015-12-29 11:21:24 u013088062 阅读数 32635
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

  最近有人问我图像处理怎么研究,怎么入门,怎么应用,我竟一时语塞。仔细想想,自己也搞了两年图像方面的研究,做个两个创新项目,发过两篇论文,也算是有点心得,于是总结总结和大家分享,希望能对大家有所帮助。在写这篇教程之前我本想多弄点插图,让文章看起来花哨一点,后来我觉得没必要这样做,大家花时间沉下心来读读文字没什么不好,况且学术和技术本身也不是多么花哨的东西。

  一、图像处理的应用

  这个其实没什么好说的,一种技术的应用价值不是靠嘴上说,而是要看有多少人去搞,很简单的道理。其实我觉得判断一项技术有没有价值、有多大价值的最简单最有效的方法就是看有多少人在研究它。如果大家都在研究,那必然说明它很火,至少目前很火,以后的几年里依然还会火。因此,如果你不确定图像处理是不是有价值,那就查查全国图像处理工程师的数量就行了。

当然这里还是简单提一下。如果你真的只想问“图像处理有什么用?”,相信百度会给出比我更专业的答案。不过作为图像处理的行内人,我还是从几个基本的点来具体说一下。

  1、身份认证

  21世纪是刷脸的时代,这一点无可厚非。首先是银行,据说重庆的银行已经使用了人脸识别的验证系统来进行辅助的认证。其次是门禁系统,以前是指纹,虹膜,现在就是人脸。指纹、虹膜的识别虽然准确,但是有侵犯性,采集的过程中有侵犯性,验证的过程中也有侵犯性,反正让谁天天录指纹(采集指纹信息),用眼睛瞪摄像头(采集虹膜信息),谁都会觉得不舒服的,况且手还会脱皮。相比之下,人脸的识别就方便多了,拍张照片(采集人脸信息)谁都不会介意。最后是监控,一个摄像头所拍的监控能从不同的角度记录成百上千的人(比如车站等密集场所的监控),让警察去辨认将是一个浩大的工程,要是系统能够自动判别人员信息,无疑会给办案带来极大方便。

  2、监控安防

  安防监控可以说是图像处理领域最有潜力的应用领域。如今各个城市都在疯狂的安装监控摄像头,全国时刻都有无数的摄像头在录监控,但是安防监控的后端处理却没跟上。什么是后端处理,简单的说就是监控录像的视频处理。注意这里的视频处理可就不止包含人脸识别了,还有行人检测、异常检测、显著性检测、协同跟踪等。人脸识别之前说了,这里简单说说行人异常检测。图像处理中的行人异常检测在外行人眼中是一个非常有魔力的东西。毕竟让摄像头通过监控视频就能判断出当前画面中谁是好人谁是坏人(当然直接分为好人和坏人还是太武断了),在一般思维中貌似是不可能的。但是请不要忽略这样一个事实,就是目前大部分监控视频的分析处理都是由人工来完成的,警察破案时经常动不动就调出最近几天的监控视频,然后从头看到尾,其工程量之大可想而知。也正是这样才催生了人们对智能监控方面的研究,因为有这方面的实际需求。当然我们的视频分析程序不会直接给出诸如“好人or坏人”这样的武断而片面的判断结果。就当前的技术水平而言,能够统计当下监控画面中的人数(行人检测)、定位他们的人脸(人脸检测)、识别他们的身份(人脸识别)、判别他们的表情(表情识别)、检测他们的动作(异常检测),这就已经够了。这样以后人们就不会再面对长达几十甚至上百个小时的监控视频发呆,而是直接分析计算机给出的数据,当前画面中有多少人、都是谁、谁的动作可疑等。总之,接下来智能监控发展会很迅速,因为需求很迫切。

  3、深度学习(Deep Learning)

  通俗的说一句,“图像处理是深度学习应用的天堂”。深度学习这个概念可能有人不太熟悉,大家可以自行百度,我这里给出一个相对通俗的解释:“如果你不知道什么叫深度学习,就想想《终结者》中的T-800”。当然这句话不是我说的,是出自业界的一位大牛之口。当然这可能有点小片面,不过深度学习确实是公认的新一代人工智能的基础。

  这里举两个例子。一是谷歌的人工大脑项目。谷歌公司可以说是深度学习方面的牵头企业了,其在2012年公布的谷歌大脑项目,动用了1.6万个计算节点,训练数周,得到的人工智能模型能够自主识别猫脸图像,为新一代人工智能开辟了道路,之后微软深度学习研究院、百度深度学习研究院等机构都开始大量投入,各个高校也搞得风声水起,原因很简单,大家都知道它会火。

  第二就是图像识别方面的竞赛。最有权威的就是ImageNet竞赛。大家在一个拥有上千万张,上千类别的图像数据库上训练和测试自己的算法,比拼识别率。近几年来,摘得桂冠的一直都是深度学习模型,确切的说是卷积神经网络。更多有关ImageNet历年的竞赛信息大家可以自行百度。

  说道深度学习在图像处理的应用,不得不提中国的汤晓鸥教授,说他是国内深度学习的领头羊也不为过。他提出的DeepID人脸识别算法(一共分为三代),在一些大规模人脸数据库上的正确率(若LFW库)已经达到了99.75%,单纯从数字上讲的话可以说已经超越了人类的识别率,为此汤教授还开办了公司,开发FaceSDK(虽然还没有公布)。不过拿计算机和人脑相比本身就是不合理的,各有所长嘛。不过可见DeepLearning在图像识别领域的强大威力。至于深度学习与图像处理的关系这里就不用多说了,谷歌大脑识别的是图像,深度学习竞赛用的是图像,DeepID识别的还是图像人脸,虽然深度学习在其他方面诸如语音识别等也有应用,在图像处理依然是其主要的应用领域。

  二、图像处理研究工具

  图像处理的研究分为算法研究和应用两个部分。用到的主要编程语言有Matlab、C/C++、Python等,原因很简单,它们都有很多相应的第三方库,不用我们从零开始编程。

  1、Matlab

  MathWork公司的Matlab软件可以说是算法研究的利器,它的强大之处在于其方便快捷的矩阵运算能力和图形仿真能力,单从简洁性和封装性来说,确实完爆其他语言。但高度封装必然会相应的损失一部分灵活性,况且Matlab严格的讲更像是一个工具,而非一门编程语言。顺便提一句,它在2015年编程语言排行榜中位于第20名,仅次于IOS开发的Objective-C。

  对于算法研究人员(尤其是高校的硕士博士),首选工具自然是matlab,因为它简便快捷,封装性好,更重要的是全世界几乎所有的算法大牛、精英教授都会首先公布对应的Matlab源码,然后在逐步改写成其他语言进行实际应用。所以,如果你想做图像处理方面的研究,Matlab是必须掌握的,而且是熟练掌握。当你有一些想法需要验证时,最好明智的先用matlab编写出来测试。如果你上来就用看似高大上的C++来实验,不仅错误BUG一大堆,到头来可能效果还不佳,就算效果好,时间也会耽搁不少,毕竟算法开发还是要快的,这样才能赶在别人之前发论文。总之,只要是接触图像算法,终究逃不过Matlab,就算你是软件开发的,不研发算法,但总得能看懂别人的Matlab算法吧。

  对于之前没怎么接触过Matlab与图像处理的人,在这里推荐一本相关的书籍《MATLAB图像处理实例详解(附光盘)》。这本书对于Matlab图像处理入门还是很有帮助的。记得我当时刚上研究生时就靠两本书入门的,一是冈萨雷斯的《数字图像处理》,二是这本《MATLAB图像处理实例详解》。不过这里友情提示,在看这类教程(不仅仅是Matlab)时千万不要试图去记忆所有的工具函数,这种做法是十分愚蠢的。正确的做法是根据自己的情况快速翻阅这类工具书,可以找出里面的有实际意义的源码来敲一敲练练手感,至于具体的工具函数,只需要知道Matlab提供了这方面的功能就行了,以后用到了再回来查,或者谷歌百度。我觉得在入门阶段,最重要的不是看了多少书,听了多少课,而是尽快自己敲出一段代码,运行出结果,来建立自信和成就感,这才是支持我们走下去的最实在的动力。记得我当时看了没多久就自己敲了一个蹩脚的车牌检测的Matlab程序,现在看来真是漏洞百出,不过当时我真的很兴奋,很有成就感,觉得自己能干这行,对于初学者来说,这种感受弥足珍贵。

  2、OpenCv

  Opencv是Intel公司开发的C++图像处理工具包,形象的理解为就是C++版的Matlab。当初Intel公司开发这个工具包的初衷也是方便大家共享,希望大家能够在一个共同架构的基础上共同建造摩天大楼,而不是各自在自己的地基上盖平房。与Matlab不同,Opencv是面向开发的,稳定性好,异常处理机制周全,但有一点需要注意,由于Opencv是开源的,那么如果你在项目中直接调用了它的API,那就意味着你的项目也必须开源。因此在真正的产品开发过程中,往往需要从Opencv库里面挖代码,而不是直接调用,幸好Intel公司允许我们看源码,自己编译一把就可以了。

  说道C++和Opencv,有一个问题不得不提,那就是深度学习领域大名鼎鼎的Caffe框架。这是一个典型的基于C++和OpenCv的深度学习框架,由谷歌深度学习团队、“谷歌大脑”负责人之一贾扬清学者编写,并公布了源码。如今各个深度学习机构都在大量使用这个框架进行研究。

  这里同样对推荐两本关于Opencv方面的教程。一本是CSDN博客大牛毛星云写的《OpenCV3编程入门》,这是它根据自己多年的博客整理成的书,很详细,很典型的一本教程,介绍了OpenCv中相对前沿的知识。我翻看过这本教程,中规中矩,里面的代码通俗易懂,尤其适合初学者。当然大家同样要注意不要犯了死读书的毛病,只看它的功能,敲代码练手感即可,不要试图记忆API函数。重要的工具用多了自然会记住,不重要的工具记住了也没用。

  这里推荐的第二本书是《图像识别与项目实践――VC++、MATLAB技术实现》,这本书是一本偏向于工程应用的书,我之所以推荐它是因为它给出了很多有新意、能运行的代码。其中里面有一个项目让我印象很深,是一个车牌检测的实例。简单描述一下:由于车牌中的字符数是固定的,因此它通过判断横向区域笔画的跳变数以及笔画宽度来定位车牌区域。这个想法让人耳目一新,并且它还给出了详细代码,我也亲身试验过,效果还不错。

  这里同样再强调一下,就是一定要尽早入手写程序,建立自信和成就感。我当时学OpenCv正好用它开发了一个人脸性别识别的系统,是一个本科大学生创新计划的需求,效果还可以。

  3、Python

  Python在今年12月份的编程语言排行榜中名列第5,增长迅速。可以说Python已经逐渐成为当下脚本语言的新标准。Python在图像处理算法方面除了其自身简洁的编程优势外,还得益于两个重要的Python类库——Numpy和Theano。

  Numpy是Python的线性代数库,对于矩阵运算能提供很好的支持,并且能够在此基础上进行很多机器学习相关算法的开发仿真,这里推荐一本受到大家广泛认可的书《机器学习实战》,我最近也正在看这本书,里面对好多机器学习领域的经典算法,小到KNN,大到SVM,都给出了详细的介绍以及代码实现(Python版)。Theano是Python的机器学习库,能够方便的实现深度学习(例如卷积神经网络CNN)算法,网上很多对于DeepID算法的复现都是用的这个库。

  人觉得单从图像处理的角度评价的话,Python并没有前面两个工具(Matlab和OpenCv)应用广泛,不过作为通用的脚本语言,我觉得每个程序员都应该去了解了解它,毕竟俗话说没有烂的编程语言,只有烂程序员。我在学Python时第一个自己写的程序就是微信打飞机的小程序,在我的博客中有详细的教程,虽然是参照小甲鱼的《零基础入门学习Python》视频教程写的,但还是蛮有成就感的。

  三、图像处理研究方法

  我觉得,图像处理研究主要可以分为三个部分:基础概念、基本思想、算法研究。

  1、基础概念

  所谓基础概念,就是图像处理里最基本的知识,比如什么是图像?什么是像素?什么是彩色图像等等。没有一个明确的界限来划定什么是基础概念什么是高级知识,因人而异。了解图像处理的基础知识,有一本书是必读的,就是冈萨雷斯编写的、阮秋琦翻译的《数字图像处理》。这本书已经作为图像处理领域的经典教材使用了三十多年,我自己也把这本书看了好几遍,每一遍都会有新的体会。我觉得每一个搞图像的都应该熟读这本书。书中除了有几章内容在讲小波变换、模式识别等相对抽象的内容外,其他内容相对都是很基础的,本科生水平就能看懂。而且我建议要尽早看这本书,如果是研究生尽量在进入课题之前就看一遍,因为这样一本经典的书在进入课题之后可能就没时间看了,以后也顶多是查阅而已。我当初就是在大四的寒假看完了这本书,以后在图像入门的过程中就显得轻松很多。看完这本书,哪怕是只看前几章,明白了什么是图像(二维或者三维矩阵)、什么是像素、彩色图和灰度图、颜色空间、图像滤波、图像噪声、图像频域变换等概念,将来在进行更深一步的研究的话就会方便很多了。

  2、基本思想

  刚开始想把这部分内容命名为“基本算法”,意在介绍图像处理中的一些基本算法,后来仔细想想决定不这么写,因为图像处理是一个非常大的概念,图像处理不等于人脸识别,也不等于模式识别,直接介绍诸如图像处理基本算法之类的内容很容易写成空话,没有什么实际意义。读者有兴趣的话可以直接谷歌百度“图像处理十大经典算法”,上面有我想说的内容。

  万变不离其宗,算法是死的,重在思想。举个例子,我个人是主攻模式识别方向,在这个方向判断一个学生是否入门有一个非常简单的方法,就是“如果你能把图像很自然的想象成高维空间中的一个点”,那就说明在模式识别方面入门了,可以对图像进行分类了。当然标准不是唯一,在其他领域如目标检测也会有其他的判断标准,总之我们要对图像进行处理,那么图像就不再只是图像,它可能会演变成各种不同形式的概念,可能是点,可能是面,还可能是一个坐标空间。在目标跟踪的经典算法粒子滤波中,将一个个的小图像块看做一个个粒子;在子空间理论中,将一系列图像放在一起构建一个成分主空间(例如主成分分析PCA算法等等。,我不会详细介绍这些算法,说多了就显得抽象老套,但我要说的是我们一定要把图像本身理解好,它是一个图像,是一个矩阵,是一个信息的容器,是一种数据的表现形式,图像不一定都必须在视觉上有意义(比如频域的图像)。

  总之图像处理的基本思想还是要立足于图像本身,要深度到图像内部结构中,思维要灵活。我当时做本科毕设时,怎么也不知道图像和高维空间中的点之间有什么对应关系,后来总算有一天,突然就明白了,这也就是所谓的量变产生质变。总之一定要多想,多总结,主动去钻研,才能够真正领悟一些东西。最基本的东西往往蕴藏着深奥的道理,无论你现在多牛多厉害,都不能放掉最本源的东西。多想想图像是什么,有什么本质属性,你可能无法得到准确的答案,但肯定能得到一些有用的感悟(有点像哲学问题了)。

  3、算法研究

  算法研究应该是图像处理的核心工作,尤其是各大高校的博士硕士。这里我并不想谈那些高大上的算法,我更想说的是一些算法研究的一些基础的东西,比如说一些基础课程,比如说矩阵运算。

  研究图像处理的算法,离不开数学。在这里我建议图像处理方面的硕士一定要上两门课:《泛函分析》以及《最优化算法》,有的学校已经将这两门课列为了研究生阶段的必修课程。这两门可可以说是图像处理(至少是模式识别)的基础。我当初没上过最优化算法,但后来也自己补上了,不然真的是寸步难行。至于泛函我当时听课的时候也不是很懂,但是在之后的研究过程中发现很多图像处理的基本知识基本理论都和泛函分析中枯燥的定理如出一辙,没办法,有的东西本身就是枯燥的干货,学着费力,缺它不行。

  其次我想说的是矩阵运算。图像就是矩阵,图像处理就是矩阵运算。大家为什么都喜欢用Matlab,就是因为它的矩阵运算能力实在是太强大,在Matlab的世界中任何变量都是矩阵。同样OpenCv之所以能流行,不仅仅是因为它良好的封装性,也是因为它的矩阵格式,它定义了Mat基础类,允许你对矩阵进行各种操作。Python也不例外,它的Numpy就是一个专门的线性代数库。

  真正在图像编程过程中,那些看着高大上的API函数归根到底都是工具,查查手册就能找到,真正核心还是在算法,算法是由公式编写的,公式的单元是变量,而图像届的变量就是矩阵。所以,熟练去操作矩阵,求秩、求逆、最小二乘,求协方差,都是家常便饭。所以,如果你有幸能上《矩阵分析》这门课,一定要把它看懂,那里面都是干货。

  四、小结

  总之,图像处理就是一个典型的门槛低、厅堂深的领域。不需要太多基础,学过线性代数,会一点编程就够了;但是那些算法却深不可测,是个消耗功夫的活儿。在写这篇教程时我说的很直白,就像和大家对话一样,想到什么说什么。在最后我想说两句题外话,就是不仅仅针对图像处理,对于其他新技术的入门学习也是一样,尽快迈出第一步,尽快去建立自信和成就感,让自己有勇气走下去,然后缺什么补什么就行了。我觉得真正让人望而却步的往往不是技术本身,而是我们对自身的不自信。唯有果断开工,才能战胜心魔。


如果觉得这篇文章对您有所启发,欢迎关注我的公众号,我会尽可能积极和大家交流,谢谢。


2014-05-26 20:17:40 xiaqunfeng123 阅读数 12972
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

        最近在找图像处理模式识别方面的实习,顺便就这个方向的前景什么的查了下,将网上的相关资料整理了一下,便于自己参考,顺便写了下自己的感悟。

        

下面是比较火的那篇文章《 浅谈图像处理方向的就业前景》具体出处不知道在哪~

       最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。

    就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(一维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都是图像模式识别。在实际应用场合,采集的信息很多都是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这一块,如果有医学图像处理的背景,去一些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了一个选择方向,并不一定要局限在图像方向。
    下面谈谈我所知道的一些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。

搜索方向
    基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、google、yahoo和百度,个个鼎鼎大名。

医学图像方向
    目前在医疗器械方向主要是几个大企业在竞争,来头都不小,其中包括Simens、GE、飞利浦和柯达,主要生产CT和MRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们在国内都设有研发中心,simens的在上海和深圳,GE和柯达都在上海,飞利浦的在沈阳。由于医疗市场是一个没有完全开发的市场,而一套医疗设备的价格是非常昂贵的,所以在这些地方的待遇都还可以,前景也看好。国内也有一些这样的企业比如深圳安科和迈瑞

计算机视觉和模式识别方向
    我没去调研过有哪些公司在做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。还有一个很大的方向是车牌识别,这个我倒是知道有一个公司高德威智能交通似乎做的很不错的样子。目前视频监控是一个热点问题,做跟踪和识别的可以在这个方向找到一席之地。
    上海法视特位于上海张江高科技园区,在视觉和识别方面做的不错。北京的我也知道两个公司:大恒和凌云,都是以图像作为研发的主体。

视频方向
    一般的高校或者研究所侧重在标准的制定和修改以及技术创新方面,而公司则侧重在编码解码的硬件实现方面。一般这些公司要求是熟悉或者精通MPEG、H.264或者AVS,选择了这个方向,只要做的还不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常在各个bbs或者各种招聘网站经常看到。
    我所知道的两个公司:诺基亚和pixelworks

其他
    其实一般来说,只要涉及到成像或者图像的基本都要图像处理方面的人。比方说一个成像设备,在输出图像之前需要对原始图像进行增强或者去噪处理,存储时需要对图像进行压缩,成像之后需要对图像内容进行自动分析,这些内容都是图像处理的范畴。

下面列举一些与图像有关或者招聘时明确说明需要图像处理方面人才的公司:
上海豪威集成电路有限公司
中芯微
摩托罗拉上海研究院
威盛(VIA)
松下
索尼
清华同方
三星
     所有与图像(静止或者运动图像)有关的公司都是一种选择。比如数码相机、显微镜成像、超声成像、工业机器人控制、显示器、电视、遥感等等,都可以作为求职方向。


要求:
1、外语。如果进外企,外语的重要性不言而喻。一般外企的第一轮面试都是英语口语面试。

2、编程。这方面尤以C++为重,很多公司的笔试都是考c++知识。
3、专业水平。如果要找专业相关的工作,研究生期间的研究经历和发表的论文就显的比较重要。
4、知识面的宽度。我觉得在研究生期间,除了做好自己的研究方向之外,扩宽一下知识面也有很大的帮助,当然这个知识面指的是图像处理、计算机视觉和模式识别,知识面越宽,就业时的选择就会越多。


    图像处理方向毕业的就业面非常广,而且待遇在应届生应该是中上等。其实还是一句话,能力决定一切。只要研究生三年没有白过,根本不愁找不到好工作。祝所有正在读研或者即将读研的朋友将来都能有一份满意的工作。
 
    反面的来说:现在大学和研究机构做图象的越来越多了,这里面老板自己懂图象的不知道有多少?!老板不懂,影响还是很大的
    多数做图象的是用MATLAB,用别人的代码(如小波)。在研究生三年学好C++毕业的有多少?在公司C++是重要的。
    图象其实就是信号处理,除了本科是学信号的以外,信号与系统、数字信号处理是一定要学好的,那相应的数学方面的概率,多元统计,甚至泛函也要了解。
    外语的基本要求是看懂英文文献(不一定全看懂),相应的英文书。去外企做研发,这是必备的。然后是口语和听力。
    说这些不是波冷水,希望大家了解清楚。
Compared to the number of jobs available each year in the imaging soceity, the people who are majoring on it are way too much. I have to say most of the people who studied the this area were not end up with working on this area anymore.
The most important thing here is to understand image processing, it requires a broad level of knowledge including, some math (algrebra, statistics, PDE), dsp, pattern recognition, programming skills...
It is all these background skills will find you a job, so prepare to have a deep understanding on all these areas related to image processing
    我也是学模式识别的,但是研究方向是遥感图像处理和识别.总的来说这个方向是比较专,但也是目前图像处理中比较难做的一个方向,因为遥感图像的复杂性超过我们所见过的任何图像.
    其实谈到就业问题,我觉得如果研究方向比较适合,特别是读研期间能到斑竹谈的那些牛比的公司实习,了解企业真正需要的方向可能做起来有目标性.
    顺便提下:高德威公司还是不要考虑,因为本人在毕业面试过程中,虽然面试的人力资源人员很友善,但是通过他们老板写的一些文章可以发现他们还是一个比较自恋和自大的公司.
楼 主是好人,不过此文更多是安慰,新手不可太当真
    衡量专业好坏的标准有两个:应用前景和技术门槛。个人觉得图像处理应用前景一般,比通信,计算机差远了,而技术门槛,相信不是新手都清楚,比微波之类低不少。总的来说图像方向就业一般,在it业算较冷得,特别是模式识别,人工智能之类,看起来高深邪乎,其实就是博士都不好找工作(亲身所见)

    1)说到图像处理比通信差,很大部分的原因是当前行业背景,但通信真正的研发在中国又有多少,我的朋友中很多做工程的,况且现在在通信领域,很大的一个难点,也是多媒体通信。
    2)说到比计算机差,我觉得这与你怎么看待计算机专业有关,有人觉得是基础,是工具,有人觉得是专业。况且计算机那边,现在研究图像的也不少。
    3)再者,说微波,RFID等入门难,但要做精又谈何容易,而且兴趣真的很重要,没有兴趣,再有前景的专业,你也不一定能做好,还有女生并不适合搞这个,就业时,单位一般会暗示。另外,就业面也较窄,好公司真的难进,找工的时候,真的很郁闷,特别对女生。或许将来很大发展前途,这个另当别论。
    4)说回图像处理,我觉得还是较中肯的,略有好的嫌疑,关键还是在读研的时候能把方向做宽(一般做图像处理,需要何模式识别等相结合,拓宽知识面是必要的,在真正做研究的时候,也发现是必须的),研究点做深入,注重实现能力、创新能力和学习能力,通过论文。多培养自己的材料组织提炼能力,锻炼逻辑思维。如果真的能做到三年光阴不虚度,找工应该不是问题,到时真正要考虑的是定位问题。
    5)当然,最后,找工的时候,包装是一种技巧,整合是一种需要。
我觉得做图像处理还是很有前途的。


      单独说图像处理,的确没什么好说的。可图像处理是目前最为火热的一个方向,技术发展更迭迅速。图像处理大分可分四个行业:工控、医疗、遥感、监控。把图像处理独立出来,并不能算是一个行业。图像处理应用性非常强,所有算法也都是基于应用的。所以,要找工作可以考虑从这四个行业开始。每个行业都有各自特色:工控,重在控制,用机器视觉来控制机器,要求速度和精度;医疗,位数高,色彩要求高,算法效率高,稳定;遥感,数据量大,重在分析;监控,涉及智能算法。

      我觉得其实图像处理这部分大体分为工控、消费电子、互联网这三个大块,工控这边是以实时性和工程实施为基础,不太需要特别前沿的一些算法,消费电子和互联网这边做的图像主要是基于用户和需求的,创新性较强,技术变化也快。


下面是某学长给出的一些建议:

我根据《浅谈图像处理方向的就业前景》和自己找工作的一些经验简单介绍一下图像处理方向就业前景,希望能对后来者有所帮助!

1、请学好图像基本理论知识,笔试会遇到很多基础的题;

2、请学好c++语言,99%以上的公司在招图像岗位的人员时都会笔试c++;

3、请多做一些实际的项目,少一些理论的研究(针对中小企业而言);

4、请不要只局限于的课题,因为可能你的课题只是图像处理领域的一些皮毛;

5、请多了解一些相关的前沿知识;

6、请不要迷信自己的算法,比如BP神经网络(可能理论研究时用的很多,可是实际呢?

7、请尽量与企业的相关人士探讨该领域的问题,那样的收获比书本大很多;


       表示不能同意更多,很多时候光看些理论的东西不去实践是不行的,一定要就某一个具体的问题落实到实处,深入的去挖掘它。芍药学姐也说,在面试的时候一般是通过你对做过某一个问题的深度来了解你的个人能力,是否可以快速去学习,并且在对你自己做的事情,为什么这么做,调研过什么等等要非常的清楚,这就是考察一个应届毕业生的是否优秀的标准。


下面是一些关于图像处理和计算机视觉方面的期刊:

     好不好投与文章质量有很大关系,如果是第一次投,而又不是急着要文章的话,我建议投比文章质量相当期刊稍好一点的期刊,这样能学到更多。比PAMI,IJCV稍差点的期刊有TIP,IET Image Processing, computer vision and image understanding, image and vision computing之类的,比PR稍差的有PRL之类的。
数字图像处理领域可以投稿的期刊:
Computer Vision and Image Processing    
IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) IEEE 
International Journal of Computer Vision (IJCV)  Springer 
Vision Research Elsevier 
IEEE Transactions on Image Processing (IEEE-T-IP) IEEE 
ACM Transactions on Applied Perception  ACM 
Computer Vision and Image Understanding (CVIU) Elsevier 
Image and Vision Computing Elsevier 
Journal of Vision JV 
Journal of Visual Communication and Image Representation (JVCIR) Elsevier 
Journal of Mathematical Imaging and Vision  Springer  
Journal of Electronic Imaging  SPIE 
ICGST International Journal on Graphics, Vision and Image Processing (GVIP) ICGST  
MGV: Machine GRAPHICS & VISION Institute of Computer Science 
International Journal of Imaging Systems and Technology Wiley InterScience  
Electronic Letters on Computer Vision and Image Analysis  Elcvia 
The Visual Computer Springer 
IET Image Processing IET 
IET Computer Vision IET 
International Journal of Image and Graphics (IJIG) World Scientific 
International Journal of Remote Sensing  Taylor & Francis 
SIAM Journal on Imaging Sciences  SIAM 
Signal, Image and Video Processing  Springer 
Pattern Recognition    
Pattern Recognition Elsevier 
Pattern Recognition Letters (PRL) Elsevier 
International Journal of Pattern Recognition and Artificial Intelligence  World Scientific  
Pattern Analysis & Applications  Springer  
Journal of Pattern Recognition Research (JPRR) JPRR 
Signal Processing    
IEEE Signal Processing Letters IEEE 
IEEE Signal Processing Magazine IEEE 
Signal Processing  Elsevier 
EURASIP Journal on Applied Signal Processing EURASIP 
Signal Processing : Image Communication Elsevier 
IET Signal Processing IET 
Neurophysical Journals in Computer Vision    
Nature Neuroscience. Nature 
Visual Neuroscience. Cambridge 
IEEE Transactions on Neural Networks. IEEE 
Neural Networks Elsevier 
Perception and Psychophysics. Psychonomic Society 
Perception. Pion Ltd. 
Journal of Experimental Psychology: Human Perception and Performance. Elsevier 
Computer Graphics    
ACM Transactions on Graphics ACM 
IEEE Computer Graphics and Applications (CG&A)  IEEE 
IEEE Transactions on Visualization and Computer Graphics IEEE 
ACM SIGGRAPH Computer Graphics ACM 
Computers and Graphics Science Direct 
Computer Graphics Forum (including Eurographics) Eurographics 
Graphics Interface Graphics Interface  
Journal of Graphics Tools ACM 
Journal of Visualization and Computer Animation Wiley 
Symposium on Interactive 3D (I3D) ACM 
Virtual Reality    
Virtual Reality Software and Technology (VRST)  ACM 
Machine Vision Applications    
Machine Vision and Applications Springer 
Real-Time Imaging Elsevier 
Vision Interface Vision Interface 
IEEE Transactions on Geoscience and Remote Sensing  IEEE 
International Journal of Applied Earth Observation and Geoinformation  Elsevier 
Remote Sensing of Environment  Elsevier 
ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING  ISPRS 
Journal of Applied Remote Sensing  SPIE 
Journal of the Indian Society of Remote Sensing  Springer 
Multimedia    
IEEE Transactions on Circuits and Systems for Video Technology IEEE 
IEEE Transactions on Multimedia IEEE 
Optics    
Journal Optical Society of America OSA 
Optometry and Vision Science LW&W 
Information Fusion    
Information Fusion Elsevier 
Information Processing Letters Elsevier 
Information Sciences Elsevier 
Information Sciences - Applications Elsevier 
Information Systems Elsevier 
Soft Computing    
Applied Soft Computing  Elsevier 
Journal of Soft Computing  Springer 
Others    
Medical Image Analysis Elsevier 
ACM Transactions on Information Systems ACM 
Swarm Intelligence Springer 
IET Information Security IET 
Numerical Functional Analysis and Optimization  Taylor & Francis 
Sadhana - Academy Proceedings in Engineering Sciences  Springer 
International Journal of Wavelets, Multiresolution and Information Processing (IJWMIP)  World Scientific 
IETE Technical Review IETE 
IETE Journal of Research IETE 
IEEE Transactions on Information Forensics and Security  IEEE

2019-03-14 18:21:07 Bluenapa 阅读数 832
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

目录

  一、图像处理的应用

  1、身份认证

  2、监控安防

  3、深度学习(Deep Learning)

  二、图像处理研究工具

  1、Matlab

  2、OpenCv

  3、Python

  三、图像处理研究方法

  1、基础概念

  2、基本思想

  3、算法研究

  四、小结


最近有人问我图像处理怎么研究,怎么入门,怎么应用,我竟一时语塞。仔细想想,自己也搞了两年图像方面的研究,做个两个创新项目,发过两篇论文,也算是有点心得,于是总结总结和大家分享,希望能对大家有所帮助。在写这篇教程之前我本想多弄点插图,让文章看起来花哨一点,后来我觉得没必要这样做,大家花时间沉下心来读读文字没什么不好,况且学术和技术本身也不是多么花哨的东西。

  一、图像处理的应用

  这个其实没什么好说的,一种技术的应用价值不是靠嘴上说,而是要看有多少人去搞,很简单的道理。其实我觉得判断一项技术有没有价值、有多大价值的最简单最有效的方法就是看有多少人在研究它。如果大家都在研究,那必然说明它很火,至少目前很火,以后的几年里依然还会火。因此,如果你不确定图像处理是不是有价值,那就查查全国图像处理工程师的数量就行了。

当然这里还是简单提一下。如果你真的只想问“图像处理有什么用?”,相信百度会给出比我更专业的答案。不过作为图像处理的行内人,我还是从几个基本的点来具体说一下。

  1、身份认证

  21世纪是刷脸的时代,这一点无可厚非。首先是银行,据说重庆的银行已经使用了人脸识别的验证系统来进行辅助的认证。其次是门禁系统,以前是指纹,虹膜,现在就是人脸。指纹、虹膜的识别虽然准确,但是有侵犯性,采集的过程中有侵犯性,验证的过程中也有侵犯性,反正让谁天天录指纹(采集指纹信息),用眼睛瞪摄像头(采集虹膜信息),谁都会觉得不舒服的,况且手还会脱皮。相比之下,人脸的识别就方便多了,拍张照片(采集人脸信息)谁都不会介意。最后是监控,一个摄像头所拍的监控能从不同的角度记录成百上千的人(比如车站等密集场所的监控),让警察去辨认将是一个浩大的工程,要是系统能够自动判别人员信息,无疑会给办案带来极大方便。

  2、监控安防

  安防监控可以说是图像处理领域最有潜力的应用领域。如今各个城市都在疯狂的安装监控摄像头,全国时刻都有无数的摄像头在录监控,但是安防监控的后端处理却没跟上。什么是后端处理,简单的说就是监控录像的视频处理。注意这里的视频处理可就不止包含人脸识别了,还有行人检测、异常检测、显著性检测、协同跟踪等。人脸识别之前说了,这里简单说说行人异常检测。图像处理中的行人异常检测在外行人眼中是一个非常有魔力的东西。毕竟让摄像头通过监控视频就能判断出当前画面中谁是好人谁是坏人(当然直接分为好人和坏人还是太武断了),在一般思维中貌似是不可能的。但是请不要忽略这样一个事实,就是目前大部分监控视频的分析处理都是由人工来完成的,警察破案时经常动不动就调出最近几天的监控视频,然后从头看到尾,其工程量之大可想而知。也正是这样才催生了人们对智能监控方面的研究,因为有这方面的实际需求。当然我们的视频分析程序不会直接给出诸如“好人or坏人”这样的武断而片面的判断结果。就当前的技术水平而言,能够统计当下监控画面中的人数(行人检测)、定位他们的人脸(人脸检测)、识别他们的身份(人脸识别)、判别他们的表情(表情识别)、检测他们的动作(异常检测),这就已经够了。这样以后人们就不会再面对长达几十甚至上百个小时的监控视频发呆,而是直接分析计算机给出的数据,当前画面中有多少人、都是谁、谁的动作可疑等。总之,接下来智能监控发展会很迅速,因为需求很迫切。

  3、深度学习(Deep Learning)

  通俗的说一句,“图像处理是深度学习应用的天堂”。深度学习这个概念可能有人不太熟悉,大家可以自行百度,我这里给出一个相对通俗的解释:“如果你不知道什么叫深度学习,就想想《终结者》中的T-800”。当然这句话不是我说的,是出自业界的一位大牛之口。当然这可能有点小片面,不过深度学习确实是公认的新一代人工智能的基础。

  这里举两个例子。一是谷歌的人工大脑项目。谷歌公司可以说是深度学习方面的牵头企业了,其在2012年公布的谷歌大脑项目,动用了1.6万个计算节点,训练数周,得到的人工智能模型能够自主识别猫脸图像,为新一代人工智能开辟了道路,之后微软深度学习研究院、百度深度学习研究院等机构都开始大量投入,各个高校也搞得风声水起,原因很简单,大家都知道它会火。

  第二就是图像识别方面的竞赛。最有权威的就是ImageNet竞赛。大家在一个拥有上千万张,上千类别的图像数据库上训练和测试自己的算法,比拼识别率。近几年来,摘得桂冠的一直都是深度学习模型,确切的说是卷积神经网络。更多有关ImageNet历年的竞赛信息大家可以自行百度。

  说道深度学习在图像处理的应用,不得不提中国的汤晓鸥教授,说他是国内深度学习的领头羊也不为过。他提出的DeepID人脸识别算法(一共分为三代),在一些大规模人脸数据库上的正确率(若LFW库)已经达到了99.75%,单纯从数字上讲的话可以说已经超越了人类的识别率,为此汤教授还开办了公司,开发FaceSDK(虽然还没有公布)。不过拿计算机和人脑相比本身就是不合理的,各有所长嘛。不过可见DeepLearning在图像识别领域的强大威力。至于深度学习与图像处理的关系这里就不用多说了,谷歌大脑识别的是图像,深度学习竞赛用的是图像,DeepID识别的还是图像人脸,虽然深度学习在其他方面诸如语音识别等也有应用,在图像处理依然是其主要的应用领域。

  二、图像处理研究工具

  图像处理的研究分为算法研究和应用两个部分。用到的主要编程语言有Matlab、C/C++、Python等,原因很简单,它们都有很多相应的第三方库,不用我们从零开始编程。

  1、Matlab

  MathWork公司的Matlab软件可以说是算法研究的利器,它的强大之处在于其方便快捷的矩阵运算能力和图形仿真能力,单从简洁性和封装性来说,确实完爆其他语言。但高度封装必然会相应的损失一部分灵活性,况且Matlab严格的讲更像是一个工具,而非一门编程语言。顺便提一句,它在2015年编程语言排行榜中位于第20名,仅次于IOS开发的Objective-C。

  对于算法研究人员(尤其是高校的硕士博士),首选工具自然是matlab,因为它简便快捷,封装性好,更重要的是全世界几乎所有的算法大牛、精英教授都会首先公布对应的Matlab源码,然后在逐步改写成其他语言进行实际应用。所以,如果你想做图像处理方面的研究,Matlab是必须掌握的,而且是熟练掌握。当你有一些想法需要验证时,最好明智的先用matlab编写出来测试。如果你上来就用看似高大上的C++来实验,不仅错误BUG一大堆,到头来可能效果还不佳,就算效果好,时间也会耽搁不少,毕竟算法开发还是要快的,这样才能赶在别人之前发论文。总之,只要是接触图像算法,终究逃不过Matlab,就算你是软件开发的,不研发算法,但总得能看懂别人的Matlab算法吧。

  对于之前没怎么接触过Matlab与图像处理的人,在这里推荐一本相关的书籍《MATLAB图像处理实例详解(附光盘)》。这本书对于Matlab图像处理入门还是很有帮助的。记得我当时刚上研究生时就靠两本书入门的,一是冈萨雷斯的《数字图像处理》,二是这本《MATLAB图像处理实例详解》。不过这里友情提示,在看这类教程(不仅仅是Matlab)时千万不要试图去记忆所有的工具函数,这种做法是十分愚蠢的。正确的做法是根据自己的情况快速翻阅这类工具书,可以找出里面的有实际意义的源码来敲一敲练练手感,至于具体的工具函数,只需要知道Matlab提供了这方面的功能就行了,以后用到了再回来查,或者谷歌百度。我觉得在入门阶段,最重要的不是看了多少书,听了多少课,而是尽快自己敲出一段代码,运行出结果,来建立自信和成就感,这才是支持我们走下去的最实在的动力。记得我当时看了没多久就自己敲了一个蹩脚的车牌检测的Matlab程序,现在看来真是漏洞百出,不过当时我真的很兴奋,很有成就感,觉得自己能干这行,对于初学者来说,这种感受弥足珍贵。

  2、OpenCv

  Opencv是Intel公司开发的C++图像处理工具包,形象的理解为就是C++版的Matlab。当初Intel公司开发这个工具包的初衷也是方便大家共享,希望大家能够在一个共同架构的基础上共同建造摩天大楼,而不是各自在自己的地基上盖平房。与Matlab不同,Opencv是面向开发的,稳定性好,异常处理机制周全,但有一点需要注意,由于Opencv是开源的,那么如果你在项目中直接调用了它的API,那就意味着你的项目也必须开源。因此在真正的产品开发过程中,往往需要从Opencv库里面挖代码,而不是直接调用,幸好Intel公司允许我们看源码,自己编译一把就可以了。

  说道C++和Opencv,有一个问题不得不提,那就是深度学习领域大名鼎鼎的Caffe框架。这是一个典型的基于C++和OpenCv的深度学习框架,由谷歌深度学习团队、“谷歌大脑”负责人之一贾扬清学者编写,并公布了源码。如今各个深度学习机构都在大量使用这个框架进行研究。

  这里同样对推荐两本关于Opencv方面的教程。一本是CSDN博客大牛毛星云写的《OpenCV3编程入门》,这是它根据自己多年的博客整理成的书,很详细,很典型的一本教程,介绍了OpenCv中相对前沿的知识。我翻看过这本教程,中规中矩,里面的代码通俗易懂,尤其适合初学者。当然大家同样要注意不要犯了死读书的毛病,只看它的功能,敲代码练手感即可,不要试图记忆API函数。重要的工具用多了自然会记住,不重要的工具记住了也没用。

  这里推荐的第二本书是《图像识别与项目实践――VC++、MATLAB技术实现》,这本书是一本偏向于工程应用的书,我之所以推荐它是因为它给出了很多有新意、能运行的代码。其中里面有一个项目让我印象很深,是一个车牌检测的实例。简单描述一下:由于车牌中的字符数是固定的,因此它通过判断横向区域笔画的跳变数以及笔画宽度来定位车牌区域。这个想法让人耳目一新,并且它还给出了详细代码,我也亲身试验过,效果还不错。

  这里同样再强调一下,就是一定要尽早入手写程序,建立自信和成就感。我当时学OpenCv正好用它开发了一个人脸性别识别的系统,是一个本科大学生创新计划的需求,效果还可以。

  3、Python

  Python在今年12月份的编程语言排行榜中名列第5,增长迅速。可以说Python已经逐渐成为当下脚本语言的新标准。Python在图像处理算法方面除了其自身简洁的编程优势外,还得益于两个重要的Python类库——Numpy和Theano。

  Numpy是Python的线性代数库,对于矩阵运算能提供很好的支持,并且能够在此基础上进行很多机器学习相关算法的开发仿真,这里推荐一本受到大家广泛认可的书《机器学习实战》,我最近也正在看这本书,里面对好多机器学习领域的经典算法,小到KNN,大到SVM,都给出了详细的介绍以及代码实现(Python版)。Theano是Python的机器学习库,能够方便的实现深度学习(例如卷积神经网络CNN)算法,网上很多对于DeepID算法的复现都是用的这个库。

  人觉得单从图像处理的角度评价的话,Python并没有前面两个工具(Matlab和OpenCv)应用广泛,不过作为通用的脚本语言,我觉得每个程序员都应该去了解了解它,毕竟俗话说没有烂的编程语言,只有烂程序员。我在学Python时第一个自己写的程序就是微信打飞机的小程序,在我的博客中有详细的教程,虽然是参照小甲鱼的《零基础入门学习Python》视频教程写的,但还是蛮有成就感的。

  三、图像处理研究方法

  我觉得,图像处理研究主要可以分为三个部分:基础概念、基本思想、算法研究。

  1、基础概念

  所谓基础概念,就是图像处理里最基本的知识,比如什么是图像?什么是像素?什么是彩色图像等等。没有一个明确的界限来划定什么是基础概念什么是高级知识,因人而异。了解图像处理的基础知识,有一本书是必读的,就是冈萨雷斯编写的、阮秋琦翻译的《数字图像处理》。这本书已经作为图像处理领域的经典教材使用了三十多年,我自己也把这本书看了好几遍,每一遍都会有新的体会。我觉得每一个搞图像的都应该熟读这本书。书中除了有几章内容在讲小波变换、模式识别等相对抽象的内容外,其他内容相对都是很基础的,本科生水平就能看懂。而且我建议要尽早看这本书,如果是研究生尽量在进入课题之前就看一遍,因为这样一本经典的书在进入课题之后可能就没时间看了,以后也顶多是查阅而已。我当初就是在大四的寒假看完了这本书,以后在图像入门的过程中就显得轻松很多。看完这本书,哪怕是只看前几章,明白了什么是图像(二维或者三维矩阵)、什么是像素、彩色图和灰度图、颜色空间、图像滤波、图像噪声、图像频域变换等概念,将来在进行更深一步的研究的话就会方便很多了。

  2、基本思想

  刚开始想把这部分内容命名为“基本算法”,意在介绍图像处理中的一些基本算法,后来仔细想想决定不这么写,因为图像处理是一个非常大的概念,图像处理不等于人脸识别,也不等于模式识别,直接介绍诸如图像处理基本算法之类的内容很容易写成空话,没有什么实际意义。读者有兴趣的话可以直接谷歌百度“图像处理十大经典算法”,上面有我想说的内容。

  万变不离其宗,算法是死的,重在思想。举个例子,我个人是主攻模式识别方向,在这个方向判断一个学生是否入门有一个非常简单的方法,就是“如果你能把图像很自然的想象成高维空间中的一个点”,那就说明在模式识别方面入门了,可以对图像进行分类了。当然标准不是唯一,在其他领域如目标检测也会有其他的判断标准,总之我们要对图像进行处理,那么图像就不再只是图像,它可能会演变成各种不同形式的概念,可能是点,可能是面,还可能是一个坐标空间。在目标跟踪的经典算法粒子滤波中,将一个个的小图像块看做一个个粒子;在子空间理论中,将一系列图像放在一起构建一个成分主空间(例如主成分分析PCA算法等等。,我不会详细介绍这些算法,说多了就显得抽象老套,但我要说的是我们一定要把图像本身理解好,它是一个图像,是一个矩阵,是一个信息的容器,是一种数据的表现形式,图像不一定都必须在视觉上有意义(比如频域的图像)

  总之图像处理的基本思想还是要立足于图像本身,要深度到图像内部结构中,思维要灵活。我当时做本科毕设时,怎么也不知道图像和高维空间中的点之间有什么对应关系,后来总算有一天,突然就明白了,这也就是所谓的量变产生质变。总之一定要多想,多总结,主动去钻研,才能够真正领悟一些东西。最基本的东西往往蕴藏着深奥的道理,无论你现在多牛多厉害,都不能放掉最本源的东西。多想想图像是什么,有什么本质属性,你可能无法得到准确的答案,但肯定能得到一些有用的感悟(有点像哲学问题了)。

  3、算法研究

  算法研究应该是图像处理的核心工作,尤其是各大高校的博士硕士。这里我并不想谈那些高大上的算法,我更想说的是一些算法研究的一些基础的东西,比如说一些基础课程,比如说矩阵运算。

  研究图像处理的算法,离不开数学。在这里我建议图像处理方面的硕士一定要上两门课:《泛函分析》以及《最优化算法》,有的学校已经将这两门课列为了研究生阶段的必修课程。这两门可可以说是图像处理(至少是模式识别)的基础。我当初没上过最优化算法,但后来也自己补上了,不然真的是寸步难行。至于泛函我当时听课的时候也不是很懂,但是在之后的研究过程中发现很多图像处理的基本知识基本理论都和泛函分析中枯燥的定理如出一辙,没办法,有的东西本身就是枯燥的干货,学着费力,缺它不行。

  其次我想说的是矩阵运算。图像就是矩阵,图像处理就是矩阵运算。大家为什么都喜欢用Matlab,就是因为它的矩阵运算能力实在是太强大,在Matlab的世界中任何变量都是矩阵。同样OpenCv之所以能流行,不仅仅是因为它良好的封装性,也是因为它的矩阵格式,它定义了Mat基础类,允许你对矩阵进行各种操作。Python也不例外,它的Numpy就是一个专门的线性代数库。

  真正在图像编程过程中,那些看着高大上的API函数归根到底都是工具,查查手册就能找到,真正核心还是在算法,算法是由公式编写的,公式的单元是变量,而图像届的变量就是矩阵。所以,熟练去操作矩阵,求秩、求逆、最小二乘,求协方差,都是家常便饭。所以,如果你有幸能上《矩阵分析》这门课,一定要把它看懂,那里面都是干货。

  四、小结

  总之,图像处理就是一个典型的门槛低、厅堂深的领域。不需要太多基础,学过线性代数,会一点编程就够了;但是那些算法却深不可测,是个消耗功夫的活儿。在写这篇教程时我说的很直白,就像和大家对话一样,想到什么说什么。在最后我想说两句题外话,就是不仅仅针对图像处理,对于其他新技术的入门学习也是一样,尽快迈出第一步,尽快去建立自信和成就感,让自己有勇气走下去,然后缺什么补什么就行了。真正让人望而却步的往往不是技术本身,而是我们对自身的不自信。唯有果断开工,才能战胜心魔。

图像处理之深度学习

阅读数 11335

图像处理入门必看

阅读数 12791