图像处理 引用文献

2015-12-03 08:43:26 GarfieldEr007 阅读数 2116

程序实例

声明:本资源仅供清华大学计算机系学生学习数字图象处理课程使用,未经允许不得用于其它目的。这里的程序都是清华大学计算机系人机交互与媒体实验室的教师与学生编制的,仅供参考,问题难免。

1.    位图(Bitmap)文件的数据解析 (程序设计:武勃)

功能:读入写出位图文件,分别提取RGB多通道格式的R,G,B分量,为图象处理提供基本程序框架。

2.    数字图象的基本处理(直方图均衡化、边缘检测、阈值处理、形态学处理等)(程序设计:梁路宏)

功能:读入多种格式的图象文件,具有各种基本处理功能,构成通用图象处理的程序框架。

3.    数字图象的基本处理(直方图均衡化、边缘检测、阈值处理、形态学处理、细化、FFT等) (程序设计:武勃)

4.    离散傅立叶变换和小波变换(程序设计:刘亚, 林凡,韩丹)

5.    Houph 变换(程序设计:张茺)

6.    工作台上平面工件的分割与识别(阈值处理、形态学处理、边界跟踪、Fourier描述子、形状识别等)(程序设计:艾海舟)

功能:将简单背景下的物体分割出来,并通过边缘跟踪获得其边界,再利用形状描述参数进行识别,构成工业条件下机器视觉应用的演示实例。

7.    面向视觉监视的变化检测(程序设计:艾海舟、吕风军)

功能:动态视频输入(如支持VFW标准视频或通过Matrox图象采集卡的视频信号),检测图象的变化部分,将其存储并提供浏览查询功能,构成一个简单的应用案例。

8.    基于模板匹配或差分图象的物体(如人脸)检测与跟踪(程序设计:吕风军、王栓、江潍)

功能:动态视频输入(如支持VFW标准视频或通过Matrox图象采集卡的视频信号),检测并跟踪工作台前电脑操作者,构成一个简单的演示实例。

9.    基于多高斯背景模型的运动物检测与跟踪(程序设计:刘亚)

10.基于主元分析(PCA)的人脸检测(程序设计:吕风军)

功能:检测输入图象中的人脸,构成一个利用统计分析方法的实例。

11.基于肤色分割与模板的人脸检测(程序设计:梁路宏、孙放)

12.夜间城市道路照明状况的测量与分析(Luminance measurement via video)(程序设计:艾海舟)

13.视觉监视中的运动目标检测与跟踪(Motion object detection and tracking for visual surveillance)(程序设计:艾海舟)

14.摄象机模型的校准(程序设计:艾海舟)

功能:建立针眼摄象机模型或双平面模型。

15.基于线条特征的立体视觉(程序设计:艾海舟)

功能:抽取立体对图象的线条特征,并建立对应,计算视差,恢复深度信息。

附注:上述程序主要是标准C或BC,MS-VC程序,只有PCA的计算部分是Matlab程序。虽然利用Matlab可以很方便地编写基本的图象处理程序,但本课程要求学生熟练地掌握用MS-VC开发工具编写基于Windows的基本图象处理应用程序,这是对计算机系学生的基本要求。此外,还要求同学结合Matlab提供的图象处理工具包设计需要比较复杂数学计算的图象处理程序。

联系人:艾海舟ahz@mail.tsinghualedu.cn


返回主页

清华大学计算机系 艾海舟

最近修改时间:2001年7月19日



参考文献:

1.      朱志刚,数字图象处理,清华大学计算机系,1998.7

2.     K. R.Castleman, Digital Image Processing, 清华大学出版社& Prentice Hall,1998.

3.     K. R.Castleman, (朱志刚、林学闫、石定机等译), 数字图象处理,电子工业出版社& PrenticeHall, 1998.

4.    Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image processing,analysis, and machine vision , Chapman & Hall Computing, London, 1993. (网上消息:现在有更新的版本(第二版),2ndEdition, Brooks/Cole Publishing,1999.)

5.    Daisheng Luo, Pattern recognition and image processing, Chichester,Horwood Publishing, 1998

6.     崔屹,数字图象处理技术与应用,电子工业出版社,1997.3

7.    吕风军,数字图象处理编程入门,清华大学出版社,1999.9

8.    周长发,精通Visual C++图像编程,电子工业出版社,2000.1

清华大学图书馆的其它参考文献:

9.    章毓晋,图象工程 (上册) 图象处理和分析,清华大学出版社, 北京,1999

10.Edward Dougherty (ed.), Mathematical morphology in image processing,M. Dekker, New York, 1993.

11.崔屹,图象处理与分析---数学形态学方法与应用,科学出版社,北京

12.Theo Pavlidis, Algorithms for Graphics and Image Processing,Computer Science Press Inc., 11 Taft Court, Rockville, MD 20850, 1982.

13.Ferdinand van der Heijden, Image based measurement systems: objectrecognition and parameter estimation, John Wiley & Sons, Chichester, 1994.

14.Ning Lu, Fractal imaging, Academic Press, San Diego, 1997

15.Cornelius T. Leondes (ed), Image processing and pattern recognition,Calif. Academic press, San Diego, 1998

16.Sing-Tze Bow, Pattern recognition and image preprocessing, M.Dekker, New York, 1992

17.Rama Chellappa, Digital image processing, IEEE Computer SocietyPress, Los Alamitos, Calif., 1992.

18.William K. Pratt., Digital image processing, Wiley, New York, 1991.

19.Ioannis Pitas, Digital image processing algoriths, Prentice Hall,New York, 1993.

20.S.J. Sangwine and R.E.N. Horne (eds), The colour image processinghandbook, Chapman & Hall, London; New York, 1998

21.Linda Shapiro, Azriel Rosenfeld (eds), Computer vision and imageprocessing, Academic Press, Boston, 1992.

22.Bernd Jahne, Digital image processing : concepts, algorithms, andscientific applications, Springer-Verlag, New York, 1991.

23.Bernd Jahne, Spatio-temporal image processing : theory andscientific applications, Springer-Verlag, Berlin, 1993.

24.H.I. Christensen, J.L. Crowley, Experimental environments forcomputer vision and image processing, World Scientific, Singapore, 1994.

25.Anil K. Jain, Fundamentals of digital image processing, PrenticeHall, Englewood Cliffs, NJ, 1989.

26.Louis J. Galbiati, Machine vision and digital image processingfundamentals, Prentice Hall, Englewood Cliffs, N.J., 1990.

27.Jean Serra and Pierre Soille (eds), Mathematical morphology and itsapplications to image processing, Kluwer Academic Publishers, Boston, 1994.

28.Henk J.A.M. Heijmans and Jos B.T.M. Roerdink (eds), Mathematicalmorphology and its applications to image and signal processing, Kluwer,Dordrecht ; Boston, 1998.

29.M. Ibrahim Sezan, Reginald L. Lagendijk (eds), Motion analysis andimage sequence processing, Kluwer Academic Publishers, Boston, 1993.

30.Rhys Lewis, Practical digital image processing, Ellis Horwood, NewYork, 1990.

31.Tomasz Szoplik (ed), Selected papers on morphological imageprocessing: principles and optoelectronic implementations, SPIE OpticalEngineering Press, Bellingham, Wash., 1996

32.Jae S. Lim, Two-dimensional signal and image processing, PrenticeHall, Englewood Cliffs, N.J., 1990.

33.L. Prasad and S.S. Iyengar, Wavelet analysis with applications toimage processing, BCRC Press, oca Raton, 1997

34.Borko Furht, Stephen W. Smoliar, HongJiang Zhang, Video and imageprocessing in multimedia systems, Kluwer Academic Publishers, Boston ,1995.

35.Vasudev Bhaskaran, Konstantinos Konstantinides, Image and videocompression standards: algorithms and architectures, Kluwer AcademicPublishers, Boston, 1995.

36.G. Tziritas, C. Labit, Motion analysis for image sequence coding,Elsevier, New York, 1994.

37.Stephen Maybank, Theory of reconstruction from image motion,Springer-Verlag, Berlin, 1993.

38.Zhengyou Zhang, Olivier Faugeras, 3D dynamic scene analysis : astereo based approach, Springer-Verlag, Berlin, 1992.

39.Nicholas Ayache, Artificial vision for mobile robots : stereo visionand multisensory perception, MIT Press, Cambridge, Mass., 1991.

其它书籍:Pattern Recognition Books (Delft Pattern RecognitionGroup)

o       Image Processing

o       Pattern Recognition

o       Neural Networks

o       Books of Historical Interest

--------------------------------------------------------------------------------

Books onImage Processing and Vision

 H. Bassmann, P.W. Besslich, Digital Image Processing, Thomson, 1997.

 T. Lindeberg, Scale-space theory in computer vision, Kluwer AcademicPublishers, 1994

 V.S. Nalwa, A guided tour of computer vision, Addision-Wesley, 1993.

 Pitas, Digital image processing algorithms, Prentice-Hall, EnglewoodCliffs, 1993.

 Rafael C. Gonzalez and Richard E. Woods, Digital Imaging Processing,Addison-Wesley, Reading, Massachusetts, USA, 1992.

 R.M. Haralick and L.G. Shapiro, Computer and robot vision, volume I,Addison-Wesley, Reading, 1992.

 R.M. Haralick and L.G. Shapiro, Computer and robot vision, volumeII, Addison-Wesley, Reading, 1993.

 J.C. Russ, The Image Processing Handbook, CRC Press, Inc., BocaRaton, Ann Arbor, London, Tokyo, 1992.

 D. Vernon, Machine vision - Automated visual inspection and robotvision, Prentice Hall, New York, 1991. W.K. Pratt, Digital Image Processing(second edition), John Wiley & Sons, New York, 1991.

 L.J. Galbiati, Jr, Machine vision and digital image processingfundamentals, Prentice-Hall International, Inc, Englewood Cliffs, 1990.

 M. Ejiri, Machine vision - A practical technology for advanced imageprocessing, Gordon and Breach Science Publishers, New York, 1989.

 J.C. Simon, From pixels to features, North Holland, Amsterdam, 1989.

 Jan Teubner, Digital Image Processing, Prentice Hall, Copenhagen,1989.

 A.K. Jain, Fundamentals of Digital Image Processing, Prentice-Hall,Englewood Cliffs, 1989.

 B.K.P. Horn, Robot Vision, MIT Press, Cambridge, 1987.

 M.J.B. Duff and T.J. Fountain, Cellular logic image processing, AcademicPress, London, 1986.

 John C. Russ, Practical Stereology, Plenum Press, New York, 1986.

 D.E. Dudgeon and R.M. Mersereau, Multidimensional digital signalprocessing, Prentice-Hall, Inc, Englewood Cliffs, 1984.

 Rosenfeld and A.C. Kak, Digital picture processing, volume 1,Academic Press, Orlando, 1982.

 Rosenfeld and A.C. Kak, Digital picture processing, volume 2,Academic Press, Orlando, 1982.

 J. Serra, Image analysis and mathematical morphology, AcademicPress, London, 1982.

 D.H. Ballard and C.M. Brown, Computer vision, Prentice-Hall,Englewood Cliffs, 1982.

 D. Marr, Vision, W.H. Freeman and Company, San Fransisco, 1982.

Books on PatternRecognition

 T.M. Mitchell, Machine learning, Mc Graw-Hill, New York, 1997.

 J. Schurmann, Pattern classification, a unified view of statisticaland neural approaches, John Wiley & Sons, New York, 1996.

 V.N. Vapnik, The Nature of Statistical Learning Theory,Springer,1996.

 B. Ripley, Pattern Recognition and Neural Networks, CambridgeUniversity Press, Cambridge, 1996.

 C.M. Bishop, Neural Networks for Pattern Recognition, ClarendonPress, Oxford, 1995.

 D. Paulus and J. Hornegger, Pattern Recognition and Image Processingin C++, Vieweg, Braunschweig, 1995.

 J.R. Quinlan, C4.5: Programs for machine learning, Morgan KaufmannPublishers, San Mateo, California, 1993.

 Robert Schalkhoff, Pattern Recognition, statistical, structural andneural approaches, John Wiley and Sons, New York, 1992.

 G.J. McLachlan, Discriminant Analysis and Statistical PatternRecognition, John Wiley and Sons, New York, 1992.

 S.M. Weiss and C.A. Kulikowski, Computer Systems that Learn, MorganKaufmann, San Mateo, California, 1991.

 K. Fukunaga, Introduction to Statistical Pattern Recognition (SecondEdition), Academic Press, New York, 1990.

 Y.H. Pao, Adaptive Pattern Recognition and Neural Networks, AddisonWesley, Reading, Massachusetts, 1989.

 Satoshi Watanabe, Pattern Recognition, Human and Mechanical, JohnWiley & Sons, New York, 1985.

 T.Y. Young and K.S. Fu, Handbook of Pattern Recognition and ImageProcessing, Academic Press, Orlando, Florida, 1986.

 L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone,Classification and regression trees, Wadsworth, California, 1984.

 P.A. Devijver and J. Kittler, Pattern Recognition, a StatisticalApproach, Prentice Hall, Englewood Cliffs, London, 1982.

 R.C. Gonzalez and M.G. Thomason, Syntactic pattern recognition - Anintroduction, Addison-Wesley, Reading, 1982.

 J. Sklanski and G.N. Wassel, Pattern Classifiers and TrainableMachines, Springer, New York, 1981.

 . R.O. Duda and P.E. Hart, Pattern classification and scene analysis,John Wiley & Sons, New York, 1973.

 (A second edition is being prepared by David Stork)

Books on NeuralNetworks

 T. Kohonen, Self-Organizing Maps, Springer, Berlin, 1995, 1997.

 LiMin Fu, Neural Networks in Computer Intelligence, McGraw-Hill,Inc., New York, NY, 1994.

 S. Haykin, Neural Networks, A Comprehensive Foundation, Macmillan,New York, NY, 1994.

 S.Y. Kung, Digital Neural Networks, Prentice Hall, Englewood Cliffs,NJ, 1993.

 Stephen I. Gallant, Neural Network Learning and Expert systems,Massachusetts Inst. of Technology, Cambridge, Massachusetts, 1993.

 Cichocki and R. Unbehauen, Neural Networks for Optimization andSignal Processing, John Wiley & Sons, New York, 1993.

 J.M. Zurada, Artificial Neural Systems, West Publishing, St. Paul,MN, 1992.

 Muller and J. Reinhardt, Neural networks, an introduction,Springer-Verlag, Berlin, 1991.

 P.D. Wasserman, Neural Computing, theory and practice, Van NostrandReinhold, New York, 1989.

 John Hertz, Anders Krogh, and Richard G. Palmer, Introduction to theTheory of Neural Computation, Addison Wesley Publ. Comp., Redwood City ,CA.

 Aleksander, Neural Computing Architectures, North Oxford Academic,London, 1989.

 S. Grossberg, The Adaptive Brain I: Cognition, Learning,Reinforcement, and Rythm, Elsevier/North Holland, Amsterdam, 1987.

 S. Grossberg, The Adaptive Brain II: Vision, Speech, Language andMotor Control, Elsevier/North Holland, Amsterdam, 1987.

Books of Historical Interest

 K. Fukunaga, Introduction to Statistical Pattern Recognition (FirstEdition), Academic Press, New York, 1972.

 J.M. Mendel and K.S. Fu, Adaptive, learning, and pattern recognitionsystems: theory and applications, Academic Press, New York, 1970.

 M. Minsky and S. Papert, Perceptrons: An Introduction toComputational Geometry, MIT Press, Cambridge, Mass, 1969.

 A.G. Arkadev and E.M. Braverman, Teaching Computers to RecognizePatterns, Academic Press, London, 1966.

 Nilsson, N.J., Learning Machines, McGraw-Hill, New York, 1965.

 G.S. Sebestyen, Decision-Making Processes in Pattern Recognition,Macmillan, New York, 1962.

 Rosenblatt, F., Principles of Neurodynamics: Perceptrons and thetheory of brain mechanisms, Spartan Books, Washington, D.C., 1962.

--------------------------------------------------------------------------------

计算机视觉文献索引目录

Annotated Computer Vision Bibliography: Table ofContents

--------------------------------------------------------------------------------

在线讲义:

  1. I.T. Young, J.J. Gerbrands, J. van Vliet, Delft University, The Netherlands,

Image Processing Fundamentals(图象处理基础)

WebAddress:http://www.ph.tn.tudelft.nl/Courses/FIP

  1. Milan Sonka, University of Iowa,

Digital Image Processing

WebAddress:http://www.engineering.uiowa.edu/~dip/LECTURE/contents.html

  1. Clifford Watson,Department of Applied Mathematics, University of Washington, Seattle, Washington 98195

An Image Processing Tutorial for Beginning Undergraduate Students(图象处理入门)

WebAddress:http://www.cs.washington.edu/research/metip/tutor/tutor.html


相关领域其它重要论文专题链接

重要网址


返回主页

清华大学计算机系 艾海舟

最近修改时间:2000年4月4日

 


出处:http://media.cs.tsinghua.edu.cn/~ahz/digitalimageprocess/CourseImageProcess.html

2016-09-13 17:49:42 hustlihe 阅读数 2701

转自http://blog.csdn.net/passball/article/details/42805269

1. 数学

我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研的三门课,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学数目了。


2. 信号处理

图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。


2.1经典信号处理

信号与系统(第2版)  Alan V.Oppenheim等著 刘树棠译

离散时间信号处理(第2版)  A.V.奥本海姆等著 刘树棠译

数字信号处理:理论算法与实现胡广书 (编者)

 

2.2随机信号处理

现代信号处理 张贤达著

统计信号处理基础:估计与检测理论Steven M.Kay等著 罗鹏飞等译

自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

 

2.3 小波变换

信号处理的小波导引:稀疏方法(原书第3版)  tephane Malla著, 戴道清等译

 

2.4 信息论

信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译


3. 模式识别

Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

模式识别(英文版)(第4版) 西奥多里德斯著

Pattern Classification (2nd Edition) Richard O. Duda等著

Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

模式识别(第3版) 张学工著


4. 图像处理与计算机视觉的书籍推荐

图像处理,分析与机器视觉 第三版Sonka等著 艾海舟等译

Image Processing, Analysis and Machine Vision

这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。


数字图像处理 第三版 冈萨雷斯等著

Digital Image Processing

数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。


计算机视觉:理论与算法 RichardSzeliski著

Computer Vision: Theory and Algorithm

微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。


Multiple View Geometry in Computer Vision 第二版Harley等著

引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到电子版。


计算机视觉:一种现代方法 DAForsyth等著

Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了,还是值得一读。第二版已经在今年(2012年)出来了,在iask上可以找到非常清晰的版本,将近800页,补充了很多内容。期待影印版。


Machine vision: theory,algorithms, practicalities 第三版 Davies著

为数不多的英国人写的书,偏向于工业。


数字图像处理 第四版 Pratt著

Digital Image Processing

写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。


5 小结

罗嗦了这么多,实际上就是几个建议:

(1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。

(2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。

(3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

图像处理与计算机视觉:基础,经典以及最近发展(3)计算机视觉中的信号处理与模式识别

Last Update: 2012-6-23


从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法,按照字母顺序排的序。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868770

1.  Boosting


Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。

Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。


[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

[1998] Boosting the margin A new explanation for the effectiveness of voting methods

[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection

[2003] The Boosting Approach to Machine Learning An Overview

[2004 IJCV] Robust Real-time Face Detection


2. Clustering


聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。


[1989 PAMI] Unsupervised Optimal Fuzzy Clustering

[1991 PAMI] A validity measure for fuzzy clustering

[1995 PAMI] On cluster validity for the fuzzy c-means model

[1998] Some New Indexes of Cluster Validity

[1999 ACM] Data Clustering A Review

[1999 JIIS] On Clustering Validation Techniques

[2001] Estimating the number of clusters in a dataset via the Gap statistic

[2001 NIPS] On Spectral Clustering

[2002] A stability based method for discovering structure in clustered data

[2007] A tutorial on spectral clustering


3.  Compressive Sensing


最近大红大紫的压缩感知理论。


[2006 TIT] Compressed Sensing

[2008 SPM] An Introduction to Compressive Sampling

[2011 TSP] Structured Compressed Sensing From Theory to Applications


4. Decision Trees


对决策树感兴趣的同学这篇文章是非看不可的了。


[1986] Introduction to Decision Trees


5. Dynamical Programming


动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter


[1990 PAMI] using dynamic programming for solving variational problems in vision

[Book Chapter] Dynamic Programming


6.  Expectation Maximization


EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。


[1977] Maximum likelihood from incomplete data via the EM algorithm

[1996 SPM] The Expectation-Maximzation Algorithm


7.  Graphical Models


伯克利的乔丹大仙的Graphical Model,可以配合这Bishop的PRML一起看。


[1999 ML] An Introduction to Variational Methods for Graphical Models


8. Hidden Markov Model


HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。


[1989 ] A tutorial on hidden markov models and selected applications in speech recognition

[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hiddenMarkov models

[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

Hmm Chinese book.pdf


9.  Independent Component Analysis


同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。


[1999] Independent Component Analysis A Tutorial

[2000 NN] Independent component analysis algorithms and applications

[2000] Independent Component Analysis Algorithms and Applications


10. Information Theory


计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。


[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

[2010] An information theory perspective on computational vision


11.  Kalman Filter


这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。


[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

[1970] Least-squares estimation_from Gauss to Kalman

[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

[2000] The Unscented Kalman Filter for Nonlinear Estimation

[2001 Siggraph] An Introduction to the Kalman Filter_full

[2003] A Study of the Kalman Filter applied to Visual Tracking


12.  Pattern Recognition and Machine Learning


模式识别名气比较大的几篇综述


[2000 PAMI] Statistical pattern recognition a review

[2004 CSVT] An Introduction to Biometric Recognition

[2010 SPM] Machine Learning in Medical Imaging


13. Principal Component Analysis


著名的PCA,在特征的表示和特征降维上非常有用。


[2001 PAMI] PCA versus LDA

[2001] Nonlinear component analysisas a kernel eigenvalue problem

[2002] A Tutorial on Principal Component Analysis

[2004 PAMI] Two-dimensional PCA a new approach to appearance-based face representation and recognition

[2009] A Tutorial on Principal Component Analysis

[2011] Robust Principal Component Analysis

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


14.  Random Forest


随机森林


[2001 ML] Random Forests


15.      RANSAC


随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。


[2009 BMVC] Performance Evaluation of RANSAC Family


16.      Singular Value Decomposition

对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter

[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


17.  Sparse Representation


这里主要是Proceeding of IEEE上的几篇文章


[2009 PAMI] Robust Face Recognition via Sparse Representation

[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

[2010 PIEEE] Dictionaries for Sparse Representation Modeling

[2010 PIEEE] It's All About the Data

[2010 PIEEE] Matrix Completion With Noise

[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

[2011 SPM] Directionary Learning


18.   Support Vector Machines

[1998] A Tutorial on Support Vector Machines for Pattern Recognition

[2004] LIBSVM A Library for Support Vector Machines


19.  Wavelet

在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。


说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。


[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

[1996 PAMI] Image Representation using 2D Gabor Wavelet

[1998 ] FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS

[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

[2000 TCE] The JPEG2000 still image coding system_ an overview

[2002 TIP] The curvelet transform for image denoising

[2003 TIP] Gray and color imagecontrast enhancement by the curvelet transform

[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

[2003 TIP] The finite ridgelet transform for image representation

[2005 TIP] Sparse Geometric Image Representations With Bandelets

[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

[2010 SPM] The Curvelet Transform


图像处理与计算机视觉:基础,经典以及最近发展(4)图像处理与分析

Last update: 2012-6-3

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868771


1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

[1998 ICCV] BilateralFiltering for Gray and Color Images

[2008 TIP] AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal


2. Color

如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

[1991 IJCV] Color Indexing

[2000 IJCV] The EarthMover's Distance as a Metric for Image Retrieval

[2001 PAMI] Colorinvariance

[2002 IJCV] StatisticalColor Models with Application to Skin Detection

[2003] A review of RGBcolor spaces

[2007 PR]A survey ofskin-color modeling and detection methods

Gamma.pdf

GammaFAQ.pdf


3.Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE] Trends andperspectives in image and video coding


4.Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV] Vision and theAtmosphere

[2003 TIP] Gray and colorimage contrast enhancement by the curvelet transform

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastenhancement-part II

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastEnhancement-part I

[2007 TIP] TransformCoefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

[2009 TIP] A HistogramModification Framework and Its Application for Image Contrast Enhancement


5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

[1972] Bayesian-BasedIterative Method of Image Restoration

[1974] an iterative techniquefor the rectification of observed distributions

[1990 IEEE] Iterativemethods for image deblurring

[1996 SPM] Blind ImageDeconvolution

[1997 SPM] Digital imagerestoration

[2005] Digital ImageReconstruction - Deblurring and Denoising

[2006 Siggraph] RemovingCamera Shake from a Single Photograph

[2008 Siggraph]High-quality Motion Deblurring from a Single Image

[2011 PAMI]Richardson-Lucy Deblurring for Scenes under a Projective Motion Path


6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

[2008 Siggraph] SingleImage Dehazing

[2009 CVPR] Single ImageHaze Removal Using Dark Channel Prior

[2011 PAMI] Single ImageHaze Removal Using Dark Channel Prior


7. Denoising

图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion. II

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion

[1992] Nonlinear totalvariation based noise removal algorithms

[1994 SIAM] Signal andimage restoration using shock filters and anisotropic diffusion

[1995 TIT] De-noising bysoft-thresholding

[1998 TIP] Orientationdiffusions

[2000 TIP] Adaptivewavelet thresholding for image denoising and compression

[2000 TIP] Fourth-orderpartial differential equations for noise removal

[2001] Denoising  through wavelet shrinkage

[2002 TIP] The CurveletTransform for Image Denoising

[2003 TIP] Noise removalusing fourth-order partial differential equation with applications to medicalmagnetic resonance images in space and time

[2008 PAMI] AutomaticEstimation and Removal of Noise from a Single Image

[2009 TIP] Is DenoisingDead


8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

[1980] theory of edgedetection

[1983 Canny Thesis] findedge

[1986 PAMI] AComputational Approach to Edge Detection

[1990 PAMI] Scale-spaceand edge detection using anisotropic diffusion

[1991 PAMI] The design anduse of steerable filters

[1995 PR] Multiresolutionedge detection techniques

[1996 TIP] Optimal edgedetection in two-dimensional images

[1998 PAMI] Local ScaleControl for Edge Detection and Blur Estimation

[2003 PAMI] Statisticaledge detection_ learning and evaluating edge cues

[2004 IEEE] Edge DetectionRevisited

[2004 PAMI] Design ofsteerable filters for feature detection using canny-like criteria

[2004 PAMI] Learning toDetect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

[2011 IVC] Edge and lineoriented contour detection State of the art


9. Graph Cut

基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not flyChina Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

[2000 PAMI] Normalizedcuts and image segmentation

[2001 PAMI] Fastapproximate energy minimization via graph cuts

[2004 PAMI] What energyfunctions can be minimized via graph cuts


10.Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU] A Survey ofthe Hough Transform

[1989] A Comparative studyof Hough transform methods for circle finding

[1992 PAMI] Shapesrecognition using the straight line Hough transform_ theory and generalization

[1997 PR] Extraction ofline features in a noisy image

[2000 CVIU] RobustDetection of Lines Using the Progressive Probabilistic Hough Transform


11. Image Interpolation

图像插值,偶尔也用得上。一般来说,双三次也就够了

[2000 TMI] Interpolationrevisited


12. Image Matting

也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd] Image and VideoMatting A Survey

[2008 PAMI] A Closed-FormSolution to Natural Image Matting

[2008 PAMI] SpectralMatting


13.  Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994] The statistics ofnatural images

[2003 JMIV] On Advances inStatistical Modeling of Natural Images

[2009 IJCV] Fields ofExperts

[2009 PAMI] Modelingmultiscale subbands of photographic images with fields of Gaussian scalemixtures


14. Image Quality Assessment

在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

[2004 TIP] Image qualityassessment from error visibility to structural similarity

[2011 TIP] blind imagequality assessment From Natural Scene Statistics to Perceptual Quality


15.  Image Registration

图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

[1992 MIA] Image matching asa diffusion process

[1992 PAMI] A Method forRegistration of 3-D shapes

[1992] a survey of imageregistration techniques

[1998 MIA] A survey ofmedical image registration

[2003 IVC] Imageregistration methods a survey

[2003 TMI]Mutual-Information-Based Registration of Medical Survey

[2011 TIP] Hairisregistration


16. Image Retrieval

图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

[2000 PAMI] Content-basedimage retrieval at the end of the early years

[2000 TIP] PicToSeekCombining Color and Shape Invariant Features for Image Retrieval

[2002] Content-Based ImageRetrieval Systems A Survey

[2008] Content-Based ImageRetrieval-Literature Survey

[2010] Plant ImageRetrieval Using Color,Shape and Texture Features

[2012 PAMI] A MultimediaRetrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

CBIR Chinese

fundament of cbir


17. Image Segmentation

图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

[2004 IJCV] EfficientGraph-Based Image Segmentation

[2008 CVIU] Imagesegmentation evaluation A survey of unsupervised methods

[2011 PAMI] ContourDetection and Hierarchical Image Segmentation


18. Level Set

大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

[1995 PAMI] Shape modelingwith front propagation_ a level set approach

[2001 JCP] Level SetMethods_ An Overview and Some Recent Results

[2005 CVIU] Geodesicactive regions and level set methods for motion estimation and tracking

[2007 IJCV] A Review ofStatistical Approaches to Level Set Segmentation

[2008 ECCV] RobustReal-Time Visual Tracking using Pixel-Wise Posteriors

[2010 TIP] DistanceRegularized Level Set Evolution and its Application to Image Segmentation


19.Pyramid

其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

[1983] The LaplacianPyramid as a Compact Image Code


20. Radon Transform

Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

[1993 PAMI] Imagerepresentation via a finite Radon transform

[1993 TIP] The fastdiscrete radon transform I theory

[2007 IVC] Generalisedfinite radon transform for N×N images


21.Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

[1987] Scale-spacefiltering

[1990 PAMI] Scale-Spacefor Discrete Signals

[1994] Scale-space theoryA basic tool for analysing structures at different scales

[1998 IJCV] Edge Detectionand Ridge Detection with Automatic Scale Selection

[1998 IJCV] FeatureDetection with Automatic Scale Selection


22. Snake

活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

[1987 IJCV] Snakes ActiveContour Models

[1996 ] deformable modelin medical image A Survey

[1997 IJCV] geodesicactive contour

[1998 TIP] Snakes, shapes,and gradient vector flow

[2000 PAMI] Geodesic activecontours and level sets for the detection and tracking of moving objects

[2001 TIP] Active contourswithout edges


23.  Super Resolution

超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002] Example-BasedSuper-Resolution

[2003 SPM] Super-Resolution Image Reconstruction A Technical Overview

[2009 ICCV] Super-Resolutionfrom a Single Image

[2010 TIP] ImageSuper-Resolution Via Sparse Representation


24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE] OTSU Athreshold selection method from gray-level histograms

[2001 JISE] A Fast Algorithmfor Multilevel Thresholding

[2004 JEI] Survey overimage thresholding techniques and quantitative performance evaluation


25. Watershed

分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI] Watersheds indigital spaces an efficient algorithm based on immersion simulations

[2001]The WatershedTransform Definitions, Algorithms and Parallelizat on Strategies

2013-06-20 11:03:34 zhufanqie 阅读数 3938

做机器视觉和图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最高成就的几个超级专家(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是利用网络资源,利用权威网站和专家们的个人主页。


依照下面目录整理:
[1]研究群体(国际国内)[2]专家主页[3]前沿国际国内期刊与会议[4]搜索资源[5]GPL软件资源


一、研究群体
用来搜索国际知名计算机视觉研究组(CV Groups)
国际计算机视觉研究组清单http://peipa.essex.ac.uk/info/groups.html
美国计算机视觉研究组清单 http://peipa.essex.ac.uk/info/groups.html#USA

http://www-2.cs.cmu.edu/~cil/vision.html或 http://www.cs.cmu.edu/~cil/vision.html
这是卡奈基梅隆大学的计算机视觉研究组的主页,上面提供很全的资料,从发表文章的下载到演示程序、测试图像、常用链接、相关软硬件,甚至还有一个搜索引擎。著名的有人物Tomasi, Kanade等。
卡内基梅隆大学双目实验室http://vision.middlebury.edu/stereo/
卡内基梅隆研究组http://www.cs.cmu.edu/~cil/v-groups.html
还有几个实验室:
Calibrated Imaging Laboratory 图像
Digital Mapping Laboratory 映射
Interactive Systems Laboratory 互动
Vision and Autonomous Systems Center视觉自适应

http://www.via.cornell.edu/
康奈尔大学的计算机视觉和图像分析研究组,好像是电子和计算机工程系的。侧重医学方面的研究,但是在上面有相当不错资源,关键是它正在建设中,能够跟踪一些信息。
Cornell University——Robotics and Vision group

http://www-cs-students.stanford.edu/ 斯坦福大学计算机系主页
1. http://white.stanford.edu/
2. http://vision.stanford.edu/
3. http://ai.stanford.edu/美国斯坦福大学人工智能机器人实验室
The Stanford AI Lab (SAIL) is the intellectual home for researchers in the Stanford Computer Science Department whose primary research focus is Artificial Intelligence. The lab is located in the Gates...
Vision and Imaging Science and Technology

http://www.fmrib.ox.ac.uk/analysis/
主要研究:Brain Extraction Tool, Nonlinear noise reduction, Linear Image Registration, Automated Segmentation, Structural brain change analysis, motion correction, etc.

http://www.cse.msu.edu/prip/密歇根州立大学计算机和电子工程系的模式识别--图像处理研究组,它的FTP上有许多的文章(NEW)
美国密歇根州大学认知模型和图像处理实验室
The Pattern Recognition and Image Processing (PRIP) Lab faculty and students investigate the use of machines to recognize patterns or objects. Methods are developed to sense objects, to discover which...http://www.cse.msu.edu/rgroups/prip/

http://pandora.inf.uni-jena.de/p/e/index.html
德国的一个数字图像处理研究小组,在其上面能找到一些不错的链接资源。
柏林大学 http://www.cv.tu-berlin.de/

德国波恩大学视觉和认识模型小组
Computer Vision Group located within the Division III of the Computer Science Department in the University of Bonn in Germany. This server offers information on topics concerning our computer vision http://www-dbv.informatik.uni-bonn.de/

http://www-staff.it.uts.edu.au/~sean/CVCC.dir/home.html
CVIP(used to be CVCC for Computer Vision and Cluster Computing) is a research group focusing on cluster-based computer vision within the Spiral Architecture.

http://cfia.gmu.edu/
The mission of the Center for Image Analysis is to foster multi-disciplinary research in image, multimedia and related technologies by establishing links between academic institutes, industry and government agencies, and to transfer key technologies to help industry build next generation commercial and military imaging and multimedia systems.

英国的Bristol大学的Digital Media Group在高级图形图像方面不错。主要就是涉及到场景中光线计算的问题,比如用全局光照或是各种局部光照对高动态图的处理,还有近似真实的模拟现实环境 (照片级别的),还有用几张照片来建立3D模型(人头之类的)。另外也有对古代建筑模型复原。http://www.cs.bristol.ac.uk/Research/Digitalmedia/
而且根据Times全英计算机排名在第3, 也算比较顶尖的研究了

http://www.cmis.csiro.au/IAP/zimage.htm
这是一个侧重图像分析的站点,一般。但是提供一个Image Analysis环境---ZIMAGE and SZIMAGE

麻省理工视觉实验室MIT http://groups.csail.mit.edu/vision/welcome/
AI Laboratory Computer Vision group
Center for Biological and Computational Learning
Media Laboratory, Vision and Modeling Group
Perceptual Science group

UC Berkeley http://0-vision.berkeley.edu.ilstest.lib.neu.edu/vsp/index.html
http://www.cs.berkeley.edu.ilste ... n/vision_group.html
加州大学伯克利分校视觉实验室David A. Forsythhttp://www.cs.berkeley.edu/~daf/

UCLA(加州大学洛杉矶分校http://vision.ucla.edu/ 视觉实验室

英国牛津的A.Zissermanhttp://www.robots.ox.ac.uk/~az/ 机器人实验室

美国南加州大学智能机器人和智能系统研究所University of Southern California, Los Angeles
IRIS is an interdepartmental unit of USC's School of Engineering with ties to USC's Information Sciences Institute (ISI). Members include faculty, graduate students, and research staff associated with... http://iris.usc.edu/ Computer Vision 实验室
美国南加州大学计算机视觉实验室介绍:
Computer Vision Laboratory at the University of Southern California is one of the major centers of computer vision research for thirty years. they conduct research in a number of basic and applied are...http://iris.usc.edu/USC-Computer-Vision.html

英国约克大学高级计算机结构神经网络小组
The Advanced Computer Architecture Group has had a thriving research programme in neural networks for over 10 years. The 15 researchers, led by Jim Austin, focus their work in the theory and applicati...http://www.cs.york.ac.uk/arch/neural/

瑞士戴尔莫尔感知人工智能研究所
IDIAP is a research institute established in Martigny in the Swiss Alps since 1991. Active in the areas of multimodal interaction and multimedia information management, the institute is also the leade...http://www.idiap.ch/

英国萨里大学视觉,语言和信号处理中心
The Centre for Vision, Speech and Signal Processing (CVSSP) is more than 60 members strong, comprising 12 academic staff, 18 research fellows and more than 44 research students. The activities of the ...http://www.ee.surrey.ac.uk/Research/VSSP/

美国阿默斯特马萨诸塞州立大学计算机视觉实验室
The Computer Vision Laboratory was established in the Computer Science Department at the University of Massachusetts in 1974 with the goal of investigating the scientific principles underlying the con...http://vis-www.cs.umass.edu
University of Massachusetts——Computer Vision Laboratory for Perceptual Robotics

美国芝加哥伊利诺伊斯大学贝克曼研究中心智能机器人和计算机视觉实验室
Includes the following groups: Professor Seth Hutchinson's Research Group Professor David Kriegman's Research Group Professor Jean Ponce's Research Group Professor Narendra Ahuja's Research Gro...http://www-cvr.ai.uiuc.edu/
Computer Vision and Robotics Laboratory
Vision Interfaces and Systems Laboratory (VISLab)

英国伯明翰大学计算机科学学校视觉研究小组
The vision group at the School of Computer Science (a RAE 5 rated department) performs research into a wide variety of computer vision and image understanding areas. Much of this work is performed in ...http://www.cs.bham.ac.uk/research/vision/

微软研究院机器学习与理解研究小组 计算机视觉小组
The research group focuses on the development of more advanced and intelligent computer systems through the exploitation of statistical methods in machine learning and computer vision. The site lists ...http://research.microsoft.com/mlp/
http://research.microsoft.com/en-us/groups/vision/
微软公司的文献:http://research.microsoft.com/research/pubs
微软亚洲研究院:http://research.microsoft.com/asia/,值得关注Harry Shum, Jian Sun, Steven Lin, Long Quan(兼职HKUST)etc.

瑞典隆德大学数学系视觉组:http://www.maths.lth.se/matematiklth/personal/andersp/
感觉国外搞视觉的好多是数学系出身,大约做计算机视觉对数学要求很高吧。

澳大利亚国立大学:http://users.rsise.anu.edu.au/~hartley/

美国北卡大学:http://www.cs.unc.edu/~marc/

法国INRIAhttp://www-sop.inria.fr/odyssee/team/ 由Olivier.Faugeras领衔的牛人众多。

比利时鲁汶大学的L.Van Gool: www.esat.kuleuven.ac.be/psi/visics/
据说在这个只有中国一个小镇大小的地方的鲁汶大学在欧洲排行top10,名列世界top100,还出了几个诺贝尔奖,视觉研究也很强.

美国明德http://vision.middlebury.edu/stereo/

以下含有非顶尖美国学校研究组,没有链接(个别的上面已经提到),供参考。
Amerinex Applied Imaging, Inc.

Boston University
Image and Video Computing Research group

University of California at Santa Barbara加州大学芭芭拉分校
Vision Research Lab

University of California at San Diego加州大学圣迭戈分校
Computer Vision & Robotics Research Laboratory
Visual Computing laboratory

University of California at Irvine加州大学欧文分校,加州南部一城,在圣安娜东南,
Computer Vision laboratory

University of California, Riverside加州大学河滨分校
Visualization and Intelligent Systems Laboratory (VISLab)

University of California at Santa Cruz
Perceptual Science Laboratory

Caltech (加州理工)
Vision group

University of Central Florida
Computer Vision laboratory

University of Florida
Center for Computer Vision and Visualization

Colorado State University
Computer Vision group

Columbia University
Automated Vision Environment (CAVE)
Robotics group

University of Georgia, Athens
Visual and Parallel Computing Laboratory

Harvard University(哈佛)
Robotics Laboratory

University of Illinois at Urbana-Champaign
Robotics and Computer Vision

University of Iowa
Division of Physiologic Imaging

Jet Propulsion Laboratory
Machine Vision and Tracking Sensors group

Khoral Research, Inc

Lawrence Berkeley Laboratories
Imaging and Collaborative Computing Group
Imaging and Distributed Computing

Lehigh University
Image Processing and Pattern Analysis Lab
Vision And Software Technology Laboratory

University of Louisville
Computer Vision and Image Processing Lab

University of Maryland
Computer Vision Laboratory

University of Miami
Underwater Vision and Imaging Laboratory

University of Michigan密歇根
AI Laboratory

Michigan State University 密歇根州立
Pattern Recognition and Image Processing laboratory

Environmental Research Institute of Michigan (ERIM) 密歇根大学有汽车车身检测研究

University of Missouri-Columbia
Computational Intelligence Research Laboratory

NEC
Computer Vision and Image Processing

University of Nevada
Computer Vision Laboratory

Notre-Dame University
Vision-Based Robotics using Estimation

Ohio State University
Signal Analysis and Machine Perception Laboratory

University of Pennsylvania
GRASP laboratory
Medical Image Processing group
Vision Analysis and Simulation Technologies (VAST) Laboratory

Penn State University 宾夕法尼亚大学
Computer Vision
Precision Digital Images

Purdue University普渡大学
Robot Vision laboratory
Video and Image Processing Laboratory (VIPER)

Rensselaer Polytechnic Institute (RPI)
Computer Science Vision

University of Rochester
Center for Electronic Imaging Systems
Vision and Robotics laboratory

Rutgers University (The State University of New Jersey)
Image Understanding Lab

University of Southern California
Computer Vision

University of South Florida
Image Analysis Research group

Stanford Research Institute International (SRI)
RADIUS -- Research and Development for Image Understanding Systems
The Perception program at SRI's AI Center

SUNY at Stony Brook
Computer Vision Lab

University of Tennessee
Imaging, Robotics and Intelligent Systems laboratory

University of Texas, Austin
Laboratory for Vision Systems

University of Utah
Center for Scientific Computing and Imaging
Robotics and Computer Vision

University of Virginia
Computer Vision Research (CS)

University of Washington
Image Computing Systems Laboratory
Information Processing Laboratory
CVIA Laboratory

University of West Florida
Image Analysis/Robotics Research Laboratory

University of Wisconsin
Computer Vision group

Vanderbilt University
Center for Intelligent Systems

Washington State University
Imaging Research laboratory

Wright-Patterson
Model-Based Vision laboratory

Wright State University
Intelligent Systems Laboratory

University of Wyoming
Wyoming Image and Signal Processing Research (WISPR)

Yale University
Computational Vision Group http://www.cs.yale.edu/
School of Medicine, Image Processing and Analysis group

国内:
中科院模式识别国家重点实验室 http://www.nlpr.ia.ac.cn/English/rv/mainpage.html
虹膜识别、掌纹识别、人脸识别、
莲花山http://www.stat.ucla.edu/~sczhu/Lotus/
天津大学精密测试技术及仪器国家重点实验室
研究方向包括:激光及光电测试技术、传感及测量信息技术、微纳测试与制造技术、制造质量控制技术。该实验室是国内精密测试领域惟一的国家重点实验室。
智能微系统及其集成应用技术微结构光学测试技术油气储运安全检测技术先进制造中的视觉测量及其关键技术正交偏振激光器原理、特性及其在精密计量中的应用研究5项代表性成果(07.3)。

中科院长春光机所 http://www.ciomp.ac.cn/ny/keyan.asp

中科院沈阳自动化所http://www.sia.ac.cn/index.php

中科院西安光机所http://www.opt.ac.cn/yanjiushi/gpcxjs1.htm

北京大学智能科学系http://www.cis.pku.edu.cn/vision/vision.htm
三维视觉计算与机器人,生物特征识别与图像识别


二、专家网页
http://www.ai.mit.edu/people/wtf/
这位可是MIT人工智能实验室的BILL FREEMAN。专长是:理解--贝叶斯模型。

http://www.merl.com/people/brand/
MERL(Mitsubishi Electric Research Laboratory)中的擅长“Style Machine”

http://research.microsoft.com/~ablake/
CV界极有声望的A.Blake 1977年毕业于剑桥大学三一学院并或数学与电子科学学士学位。之后在MITEdinburghOxford先后组建过研究小组并成为Oxford的教授,直到1999年进入微软剑桥研究中心。主要工作领域是计算机视觉。

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/user/har/Web/home.html
这位专家好像正在学习汉语,主页并且搜集了诸如两只老虎(Two Tigers)”的歌曲。
他的主页上面还有几个专家:Shumeet Baluja, Takeo Kanade。他们的Face Detection作的绝对是世界一流。毕业于卡奈基梅隆大学的计算机科学系,兴趣是计算机视觉。

 

三、前沿国际国内期刊与会议
这里的期刊大部分都可以通过上面的专家们的主页间接找到
1.国际会议 2.国际期刊 3.国内期刊 4.神经网络 5.CV 6.数字图象 7.教育资源,大学 8.常见问题
1. 国际会议
现在,国际上计算机视觉方面的三大国际会议是ICCV, CVPRECCV,统称之为ICE
ICCV的全称是International Comference on Computer VisionICCV两年一次,与ECCV正好错开,是公认的三个会议中级别最高的。

ECCV的全称是Europeon Conference on Computer Vision,是一个欧洲的会议。

CVPR的全称是Internaltional Conference on Computer Vision and Pattern Recogintion国际计算机视觉与模式识别会议。这是一个一年一次的会议,举办地在美国。
ICIP—
BMVC—
MVA—
国际模式识别会议(ICPR )
亚洲计算机视觉会议(ACCV)
2.国际期刊
以计算机视觉为主要内容之一的国际刊物也有很多,如:
International Journal of Computer Vision
IEEE Trans. On PAMI http://www.computer.org/tpami/index.htm
IEEE Transactionson Image Processing http://www.ieee.org/organizations/pubs/transactions/tip.htm
Pattern Recognition http://www.elsevier.com/locate/issn/00313203
Pattern Recognition Letters http://www.elsevier.com/locate/issn/01678655
IEEE Trans. on Robotics and Automation
IEEE TPAMI
IEEE TIP
CVGIP Computer Vision. Graphics and Image Processing
Visual Image Computing
IJPRAI(Internatiorial Journat of Pattern Recognition and Artificial Intelligence)

众所周知, computer vision(cv) 存在ICCV/CVPR/ECCV三个顶级会议,它们档次差不多,都应该在一流会议行列, 没有必要给个高下。有些us的人认为ICCV/CVPR略好于ECCV,而欧洲人大都认为ICCV/ECCV略好于CVPR,某些英国的人甚至认为BMVC好于CVPR。简言之, 三个会议差不多, 各有侧重和偏好。

笔者就个人经验浅谈三会异同, 以供大家参考和讨论。 三者乃cv领域的旗舰和风向标,其oral paper (包括best paper) 代表当年度cv的最高水准, 在此引用Harry Shum的一句话, 想知道某个领域在做些什么,找最近几年此领域的proceeding看看就知道了。 ICCV/CVPRIEEE Computer Society牵头组织, ECCV好像没有专门负责的组织。 CVPR每年(2002)都在美国开, ECCV每两年开一次,仅限欧洲, ICCV也是每两年一次,各洲轮值。 基本可以保证每年有两个会议开, 这样研究者就有两次跻身牛会的机会。
就录取率而言, 三会都有波动。 如ICCV2001录取率>30%,且出现两个人(华人)各有三篇第一作者的paper的情况, 这在顶级牛会是不常见的 (灌水嫌疑)。 但是, ICCV2003, 2005两次录取率都很低, 大约20%左右。 ECCV也是类似规律, 在2004年以前都是>30%, 2006年降低到20%左右。 CVPR的录取率近年来一直偏高,从2004年开始一直都在[25%30%]。最近一次CVPR200628.1%, CVPR2007还不知道统计数据。笔者猜测为了维持录取paper的绝对数量, 当submission少的时候录取率偏高, 反之偏低,近几年三大会议的投稿数量全部超过1000, 相对2000年前, 三会录取率均大幅度降低,最大幅度50%->20%。 对录取率走势感兴趣的朋友, 可参考 http://vrlab.epfl.ch/~ulicny/statistics/(CVPR2004的数据是错的)http://www.adaptivebox.net/research/bookmark/CICON_stat.html.

显然, 投入cv的人越来越多,这个领域也是越来越大, 这点颇不似machine learning一直奉行愚蠢的小圈子主义。另外一点值得注意, ICCV/ECCV只收vision相关的topic,而cvpr会收少量的pattern recognition paper, 如finger print等,但是不收和image/video完全不占边的pr paper,如speech recognition等。我一个朋友曾经review过一篇投往CVPRspeechpaper, 三个reviewer一致拒绝,其中一个reviewer搞笑的指出, 你这篇paper应该是投ICASSP被据而转投CVPR的。 就topic而言, CVPR涵盖最广。 还有一个没有验证过的原因导致CVPR录取率高很多usresearcher不愿意或没有足够的经费到us以外的地方开会, 故CVPR会优先接收很多来自uspaper (让大家都happy)

以上对三会的分析对我们投paper是很有指导作用的。 目前的research我想绝大部分还是纸上谈兵, 必经 read paper -> write paper -> publish paper -> publish paper on top conferences and journals流程。故了解投paper的一些基本技巧, 掌握领域的走向和热点, 是非常必要的。 避免做无用功,选择切合的topic,改善presentation, 注意格式 (遵守规定的模板), 我想这是很多新手需要注意的问题。如ICCV2007明文规定不写summary page直接reject, 但是仍然有人忽视, 这是相当不值得的。
3.国内期刊
自动化学报、计算机学报、软件学报、电子学报,中国图象图形学报,模式识别与人工智能,光电子激光,精密光学工程等。
4.神经网络
神经网络-Neural Networks Tutorial Review
http://hem.hj.se/~de96klda/NeuralNetworks.htm
ftp://ftp.sas.com/pub/neural/FAQ.html

Image Compression with Neural Networks
http://www.comp.glam.ac.uk/digimaging/neural.htm

Backpropagator's Review
http://www.dontveter.com/bpr/bpr.html

Bibliographies on Neural Networks
http://liinwww.ira.uka.de/bibliography/Neural/

Intelligent Motion Control with an Artificial Cerebellum
http://www.q12.org/phd.html

Kernel Machines
http://www.kernel-machines.org/

Some Neural Networks Research Organizations
http://www.ieee.org/nnc/
http://www.inns.org/

Neural Network Modeling in Vision Research
http://www.rybak-et-al.net/nisms.html

Neural Networks and Machine Learning
http://learning.cs.toronto.edu/

Neural Application Software
http://attrasoft.com

Neural Network Toolbox for MATLAB
http://www.mathworks.com/products/neuralnet/

Netlab Software
http://www.ncrg.aston.ac.uk/netlab/

Kunama Systems Limited http://www.kunama.co.uk/
5.Computer Vision(计算机视觉)
Annotated Computer Vision Bibliography
http://iris.usc.edu/Vision-Notes/bibliography/contents.html
http://iris.usc.edu/Vision-Notes/rosenfeld/contents.html

Lawrence Berkeley National Lab Computer Vision and Robotics Applications
http://www-itg.lbl.gov/ITG.hm.pg.docs/VISIon/vision.html

CVonline by University of Edinburgh
The Evolving, Distributed, Non-Proprietary, On-Line Compendium of Computer Vision www.dai.ed.ac.uk/CVonline

Computer Vision Handbook
www.cs.hmc.edu/~fleck/computer-vision-handbook

Vision Systems Courseware
www.cs.cf.ac.uk/Dave/Vision_lecture/Vision_lecture_caller.html

Research Activities in Computer Vision
http://www-syntim.inria.fr/syntim/analyse/index-eng.html

Vision Systems Acronyms
www.vision-systems-design.com/vsd/archive/acronyms.html

Dictionary of Terms in Human and Animal Vision
http://cns-web.bu.edu/pub/laliden/WWW/Visionary/Visionary.html

Metrology based on Computer Vision
www.cranfield.ac.uk/sme/amac/research/metrology/metrology.html
6.Digital Photography 数字图像
Digital Photography, Scanning, and Image Processing
www.dbusch.com/scanners/scanners.htm l
7.Educational Resources, Universities 教育资源,大学
Center for Image Processing in Education
www.cipe.com
Library of Congress Call Numbers Related to Imaging Science by Rochester Institute of Technology
http://wally2.rit.edu/pubs/guides/imagingcall.html

Mathematical Experiences through Image Processing, University of Washington
www.cs.washington.edu/research/metip/metip.html

Vismod Tech Reports and Publications, MIT
http://vismod.www.media.mit.edu/cgi-bin/tr_pagemaker

Vision Lab PhD dissertation list, University of Antwerp
http://wcc.ruca.ua.ac.be/~visielab/theses.html

INRIA (France) Research Projects: Human-Computer Interaction, Image Processing, Data Management, Knowledge Systems
www.inria.fr/Themes/Theme3-eng.html

Image Processing Resources
http://eleceng.ukc.ac.uk/~rls3/Contents.htm

Publications of Carsten Steger
http://www9.informatik.tu-muench ... r/publications.html
8.FAQs(常见问题)
comp.dsp FAQ
www.bdti.com/faq/dsp_faq.htm
Robotics FAQ
www.frc.ri.cmu.edu/robotics-faq

Where's the sci.image.processing FAQ?
www.cc.iastate.edu/olc_answers/p ... processing.faq.html

comp.graphics.algorithms FAQ, Section 3, 2D Image/Pixel Computations
www.exaflop.org/docs/cgafaq

Astronomical Image Processing System FAQ
www.cv.nrao.edu/aips/aips_faq.html

四、搜索资源
http://sal.kachinatech.com/
http://cheminfo.pku.edu.cn/mirrors/SAL/index.shtml 北京大学

Google输入:computer vision computer vision groups可以获得很多结果

网络资源:
CVonline http://homepages.inf.ed.ac.uk/rbf/CVonline/视觉研究组列表
Computer vision test Image http://www.cs.cmu.edu/~cil/v-images.html卡内基梅隆标准图片库
视觉论文搜索:Paper search
http://www.researchindex.com


五、图像处理GPL库(代码库图像库等)
http://www.ph.tn.tudelft.nl/~klamer/cppima.html
Cppima 是一个图像处理的C++函数库。这里有一个较全面介绍它的库函数的文档,当然你也可以下载压缩的GZIP包,里面包含TexInfo格式的文档。

http://iraf.noao.edu/
Welcome to the IRAF Homepage! IRAF is the Image Reduction and Analysis Facility, a general purpose software system for the reduction and analysis of astronomical data

http://entropy.brni-jhu.org/tnimage.html
一个非常不错的Unix系统的图像处理工具,看看它的截图。你可以在此基础上构建自己的专用图像处理工具包。

http://sourceforge.net/projects/
这是GPL软件集散地,可以搜索IP库。

国内的CSDN http://www.csdn.net/

计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接

以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其中有CV牛人的主页,CV研究小组的主页,CV领域的paper,代码,CV领域的最新动态,国内的应用情况等等。打算从事 这个行业或者刚入门的朋友可以多关注这些网站,多了解一些CV的具体应用。搞研究的朋友也可以从中了解到很多牛人的研究动态、招生情况等。总之,我认为, 知识只有分享才能产生更大的价值,真诚希望下面的链接能对朋友们有所帮助。
1googleResearch; http://research.google.com/index.html
2MIT博士,汤晓欧学生林达华; http://people.csail.mit.edu/dhlin/index.html
3MIT博士后Douglas Lanman; http://web.media.mit.edu/~dlanman/
4opencv中文网站; http://www.opencv.org.cn/index.php/%E9%A6%96%E9%A1%B5
5Stanford大学vision实验室; http://vision.stanford.edu/research.html
6Stanford大学博士崔靖宇; http://www.stanford.edu/~jycui/
7UCLA教授朱松纯; http://www.stat.ucla.edu/~sczhu/
8)中国人工智能网; http://www.chinaai.org/
9)中国视觉网; http://www.china-vision.net/
10)中科院自动化所; http://www.ia.cas.cn/
11)中科院自动化所李子青研究员; http://www.cbsr.ia.ac.cn/users/szli/
12)中科院计算所山世光研究员; http://www.jdl.ac.cn/user/sgshan/
13)人脸识别主页; http://www.face-rec.org/
14)加州大学伯克利分校CV小组; http://www.eecs.berkeley.edu/Research/Projects/CS/vision/

15)南加州大学CV实验室; http://iris.usc.edu/USC-Computer-Vision.html
16)卡内基梅隆大学CV主页; http://www-2.cs.cmu.edu/afs/cs/project/ … ision.html
17)微软CV研究员Richard Szeliski; http://research.microsoft.com/en-us/um/people/szeliski/
18)微软亚洲研究院计算机视觉研究组; http://research.microsoft.com/en-us/groups/vc/
19)微软剑桥研究院MLCV研究组; http://research.microsoft.com/en-us/gro … fault.aspx
20)研学论坛; http://bbs.matwav.com/
21)美国Rutgers大学助理教授刘青山; http://www.research.rutgers.edu/~qsliu/
22)计算机视觉最新资讯网; http://www.cvchina.info/
23)运动检测、阴影、跟踪的测试视频下载; http://apps.hi.baidu.com/share/detail/18903287
24)香港中文大学助理教授王晓刚; http://www.ee.cuhk.edu.hk/~xgwang/
(25)香港中文大学多媒体实验室(汤晓鸥)http://mmlab.ie.cuhk.edu.hk/
(26)U.C. San Diego. computer vision; http://vision.ucsd.edu/content/home
(27)CVonline; http://homepages.inf.ed.ac.uk/rbf/CVonline/
(28)computer vision software; http://peipa.essex.ac.uk/info/software.html
(29)Computer Vision Resource; http://www.cvpapers.com/
(30)computer vision research groups; http://peipa.essex.ac.uk/info/groups.html
(31)computer vision center; http://computervisioncentral.com/cvcnews

(32)浙江大学图像技术研究与应用(ITRA)团队:http://www.dvzju.com/

(33)自动识别网:http://www.autoid-china.com.cn/

(34)清华大学章毓晋教授:http://www.tsinghua.edu.cn/publish/ee/4157/2010/20101217173552339241557/20101217173552339241557_.html

(35)顶级民用机器人研究小组Porf.Gary领导的Willow Garage: http://www.willowgarage.com/

(36)上海交通大学图像处理与模式识别研究所:http://www.pami.sjtu.edu.cn/

(37)上海交通大学计算机视觉实验室刘允才教授:http://www.visionlab.sjtu.edu.cn/

(38)德克萨斯州大学奥斯汀分校助理教授Kristen Grauman http://www.cs.utexas.edu/~grauman/

(39)清华大学电子工程系智能图文信息处理实验室(丁晓青教授):http://ocrserv.ee.tsinghua.edu.cn/auto/index.asp

(40)北京大学高文教授:http://www.jdl.ac.cn/htm-gaowen/

(41)清华大学艾海舟教授:http://media.cs.tsinghua.edu.cn/cn/aihz

(42)中科院生物识别与安全技术研究中心:http://www.cbsr.ia.ac.cn/china/index%20CH.asp

(43)瑞士巴塞尔大学 Thomas Vetter教授:http://informatik.unibas.ch/personen/vetter_t.html

(44)俄勒冈州立大学 Rob Hess博士:http://blogs.oregonstate.edu/hess/

(45)深圳大学 于仕祺副教授:http://yushiqi.cn/

(46)西安交通大学人工智能与机器人研究所:http://www.aiar.xjtu.edu.cn/

(47)卡内基梅隆大学研究员Robert T. Collins: http://www.cs.cmu.edu/~rcollins/home.html#Background

(48)MIT博士Chris Stauffer: http://people.csail.mit.edu/stauffer/Home/index.php

(49)美国密歇根州立大学生物识别研究组(Anil K. Jain教授)http://www.cse.msu.edu/rgroups/biometrics/

(50)美国伊利诺伊州立大学Thomas S. Huang:http://www.beckman.illinois.edu/directory/t-huang1

2019-04-23 16:24:29 Eastmount 阅读数 19610

该系列文章是讲解Python OpenCV图像处理知识,前期主要讲解图像入门、OpenCV基础用法,中期讲解图像处理的各种算法,包括图像锐化算子、图像增强技术、图像分割等,后期结合深度学习研究图像识别、图像分类应用。希望文章对您有所帮助,如果有不足之处,还请海涵~

该系列在github所有源代码:https://github.com/eastmountyxz/ImageProcessing-Python
PS:请求帮忙点个Star,哈哈,第一次使用Github,以后会分享更多代码,一起加油。

同时推荐作者的C++图像系列知识:
[数字图像处理] 一.MFC详解显示BMP格式图片
[数字图像处理] 二.MFC单文档分割窗口显示图片
[数字图像处理] 三.MFC实现图像灰度、采样和量化功能详解
[数字图像处理] 四.MFC对话框绘制灰度直方图
[数字图像处理] 五.MFC图像点运算之灰度线性变化、灰度非线性变化、阈值化和均衡化处理详解
[数字图像处理] 六.MFC空间几何变换之图像平移、镜像、旋转、缩放详解
[数字图像处理] 七.MFC图像增强之图像普通平滑、高斯平滑、Laplacian、Sobel、Prewitt锐化详解

前文参考:
[Python图像处理] 一.图像处理基础知识及OpenCV入门函数
[Python图像处理] 二.OpenCV+Numpy库读取与修改像素
[Python图像处理] 三.获取图像属性、兴趣ROI区域及通道处理
[Python图像处理] 四.图像平滑之均值滤波、方框滤波、高斯滤波及中值滤波
[Python图像处理] 五.图像融合、加法运算及图像类型转换
[Python图像处理] 六.图像缩放、图像旋转、图像翻转与图像平移
[Python图像处理] 七.图像阈值化处理及算法对比
[Python图像处理] 八.图像腐蚀与图像膨胀
[Python图像处理] 九.形态学之图像开运算、闭运算、梯度运算
[Python图像处理] 十.形态学之图像顶帽运算和黑帽运算
[Python图像处理] 十一.灰度直方图概念及OpenCV绘制直方图
[Python图像处理] 十二.图像几何变换之图像仿射变换、图像透视变换和图像校正
[Python图像处理] 十三.基于灰度三维图的图像顶帽运算和黑帽运算
[Python图像处理] 十四.基于OpenCV和像素处理的图像灰度化处理
[Python图像处理] 十五.图像的灰度线性变换
[Python图像处理] 十六.图像的灰度非线性变换之对数变换、伽马变换
[Python图像处理] 十七.图像锐化与边缘检测之Roberts算子、Prewitt算子、Sobel算子和Laplacian算子
[Python图像处理] 十八.图像锐化与边缘检测之Scharr算子、Canny算子和LOG算子
[Python图像处理] 十九.图像分割之基于K-Means聚类的区域分割
[Python图像处理] 二十.图像量化处理和采样处理及局部马赛克特效
[Python图像处理] 二十一.图像金字塔之图像向下取样和向上取样

前面一篇文章我讲解了Python图像量化、采样处理及图像金字塔。本文主要讲解图像傅里叶变换的相关内容,在数字图像处理中,有两个经典的变换被广泛应用——傅里叶变换和霍夫变换。其中,傅里叶变换主要是将时间域上的信号转变为频率域上的信号,用来进行图像除噪、图像增强等处理。基础性文章,希望对你有所帮助。同时,该部分知识均为杨秀璋查阅资料撰写,转载请署名CSDN+杨秀璋及原地址出处,谢谢!!

1.图像傅里叶变换
2.Numpy实现傅里叶变换
3.Numpy实现傅里叶逆变换
4.OpenCV实现傅里叶变换
5.OpenCV实现傅里叶逆变换


PS:文章参考自己以前系列图像处理文章及OpenCV库函数,同时参考如下文献:
《数字图像处理》(第3版),冈萨雷斯著,阮秋琦译,电子工业出版社,2013年.
《数字图像处理学》(第3版),阮秋琦,电子工业出版社,2008年,北京.
《OpenCV3编程入门》,毛星云,冷雪飞,电子工业出版社,2015,北京.
百度百科-傅里叶变换
网易云课堂-高登教育 Python+OpenCV图像处理
安安zoe-图像的傅里叶变换
daduzimama-图像的傅里叶变换的迷思----频谱居中
tenderwx-数字图像处理-傅里叶变换在图像处理中的应用
小小猫钓小小鱼-深入浅出的讲解傅里叶变换(真正的通俗易懂)


一.图像傅里叶变换原理

傅里叶变换(Fourier Transform,简称FT)常用于数字信号处理,它的目的是将时间域上的信号转变为频率域上的信号。随着域的不同,对同一个事物的了解角度也随之改变,因此在时域中某些不好处理的地方,在频域就可以较为简单的处理。同时,可以从频域里发现一些原先不易察觉的特征。傅里叶定理指出“任何连续周期信号都可以表示成(或者无限逼近)一系列正弦信号的叠加。”

下面引用李老师 “Python+OpenCV图像处理” 中的一个案例,非常推荐同学们去购买学习。如下图所示,他将某饮料的制作过程的时域角度转换为频域角度。

绘制对应的时间图和频率图如下所示:

傅里叶公式如下,其中w表示频率,t表示时间,为复变函数。它将时间域的函数表示为频率域的函数f(t)的积分。

傅里叶变换认为一个周期函数(信号)包含多个频率分量,任意函数(信号)f(t)可通过多个周期函数(或基函数)相加合成。从物理角度理解,傅里叶变换是以一组特殊的函数(三角函数)为正交基,对原函数进行线性变换,物理意义便是原函数在各组基函数的投影。如下图所示,它是由三条正弦曲线组合成。

傅里叶变换可以应用于图像处理中,经过对图像进行变换得到其频谱图。从谱频图里频率高低来表征图像中灰度变化剧烈程度。图像中的边缘信号和噪声信号往往是高频信号,而图像变化频繁的图像轮廓及背景等信号往往是低频信号。这时可以有针对性的对图像进行相关操作,例如图像除噪、图像增强和锐化等。

二维图像的傅里叶变换可以用以下数学公式(15-3)表达,其中f是空间域(Spatial Domain))值,F是频域(Frequency Domain)值

对上面的傅里叶变换有了大致的了解之后,下面通过Numpy和OpenCV分别讲解图像傅里叶变换的算法及操作代码。


二.Numpy实现傅里叶变换

Numpy中的 FFT包提供了函数 np.fft.fft2()可以对信号进行快速傅里叶变换,其函数原型如下所示,该输出结果是一个复数数组(Complex Ndarry)。

fft2(a, s=None, axes=(-2, -1), norm=None)

  • a表示输入图像,阵列状的复杂数组
  • s表示整数序列,可以决定输出数组的大小。输出可选形状(每个转换轴的长度),其中s[0]表示轴0,s[1]表示轴1。对应fit(x,n)函数中的n,沿着每个轴,如果给定的形状小于输入形状,则将剪切输入。如果大于则输入将用零填充。如果未给定’s’,则使用沿’axles’指定的轴的输入形状
  • axes表示整数序列,用于计算FFT的可选轴。如果未给出,则使用最后两个轴。“axes”中的重复索引表示对该轴执行多次转换,一个元素序列意味着执行一维FFT
  • norm包括None和ortho两个选项,规范化模式(请参见numpy.fft)。默认值为无

Numpy中的fft模块有很多函数,相关函数如下:

#计算一维傅里叶变换
numpy.fft.fft(a, n=None, axis=-1, norm=None)
#计算二维的傅里叶变换
numpy.fft.fft2(a, n=None, axis=-1, norm=None)
#计算n维的傅里叶变换
numpy.fft.fftn()
#计算n维实数的傅里叶变换
numpy.fft.rfftn()
#返回傅里叶变换的采样频率
numpy.fft.fftfreq()
#将FFT输出中的直流分量移动到频谱中央
numpy.fft.shift()

下面的代码是通过Numpy库实现傅里叶变换,调用np.fft.fft2()快速傅里叶变换得到频率分布,接着调用np.fft.fftshift()函数将中心位置转移至中间,最终通过Matplotlib显示效果图。

# -*- coding: utf-8 -*-
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt

#读取图像
img = cv.imread('test.png', 0)

#快速傅里叶变换算法得到频率分布
f = np.fft.fft2(img)

#默认结果中心点位置是在左上角,
#调用fftshift()函数转移到中间位置
fshift = np.fft.fftshift(f)       

#fft结果是复数, 其绝对值结果是振幅
fimg = np.log(np.abs(fshift))

#展示结果
plt.subplot(121), plt.imshow(img, 'gray'), plt.title('Original Fourier')
plt.axis('off')
plt.subplot(122), plt.imshow(fimg, 'gray'), plt.title('Fourier Fourier')
plt.axis('off')
plt.show()

输出结果如图15-2所示,左边为原始图像,右边为频率分布图谱,其中越靠近中心位置频率越低,越亮(灰度值越高)的位置代表该频率的信号振幅越大。


三.Numpy实现傅里叶逆变换

下面介绍Numpy实现傅里叶逆变换,它是傅里叶变换的逆操作,将频谱图像转换为原始图像的过程。通过傅里叶变换将转换为频谱图,并对高频(边界)和低频(细节)部分进行处理,接着需要通过傅里叶逆变换恢复为原始效果图。频域上对图像的处理会反映在逆变换图像上,从而更好地进行图像处理。

图像傅里叶变化主要使用的函数如下所示:

#实现图像逆傅里叶变换,返回一个复数数组
numpy.fft.ifft2(a, n=None, axis=-1, norm=None)
#fftshit()函数的逆函数,它将频谱图像的中心低频部分移动至左上角
numpy.fft.fftshift()
#将复数转换为0至255范围
iimg = numpy.abs(逆傅里叶变换结果)

下面的代码分别实现了傅里叶变换和傅里叶逆变换。

# -*- coding: utf-8 -*-
import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt

#读取图像
img = cv.imread('Lena.png', 0)

#傅里叶变换
f = np.fft.fft2(img)
fshift = np.fft.fftshift(f)
res = np.log(np.abs(fshift))

#傅里叶逆变换
ishift = np.fft.ifftshift(fshift)
iimg = np.fft.ifft2(ishift)
iimg = np.abs(iimg)

#展示结果
plt.subplot(131), plt.imshow(img, 'gray'), plt.title('Original Image')
plt.axis('off')
plt.subplot(132), plt.imshow(res, 'gray'), plt.title('Fourier Image')
plt.axis('off')
plt.subplot(133), plt.imshow(iimg, 'gray'), plt.title('Inverse Fourier Image')
plt.axis('off')
plt.show()

输出结果如图15-4所示,从左至右分别为原始图像、频谱图像、逆傅里叶变换转换图像。


四.OpenCV实现傅里叶变换

OpenCV 中相应的函数是cv2.dft()和用Numpy输出的结果一样,但是是双通道的。第一个通道是结果的实数部分,第二个通道是结果的虚数部分,并且输入图像要首先转换成 np.float32 格式。其函数原型如下所示:

dst = cv2.dft(src, dst=None, flags=None, nonzeroRows=None)

  • src表示输入图像,需要通过np.float32转换格式
  • dst表示输出图像,包括输出大小和尺寸
  • flags表示转换标记,其中DFT _INVERSE执行反向一维或二维转换,而不是默认的正向转换;DFT _SCALE表示缩放结果,由阵列元素的数量除以它;DFT _ROWS执行正向或反向变换输入矩阵的每个单独的行,该标志可以同时转换多个矢量,并可用于减少开销以执行3D和更高维度的转换等;DFT _COMPLEX_OUTPUT执行1D或2D实数组的正向转换,这是最快的选择,默认功能;DFT _REAL_OUTPUT执行一维或二维复数阵列的逆变换,结果通常是相同大小的复数数组,但如果输入数组具有共轭复数对称性,则输出为真实数组
  • nonzeroRows表示当参数不为零时,函数假定只有nonzeroRows输入数组的第一行(未设置)或者只有输出数组的第一个(设置)包含非零,因此函数可以处理其余的行更有效率,并节省一些时间;这种技术对计算阵列互相关或使用DFT卷积非常有用

注意,由于输出的频谱结果是一个复数,需要调用cv2.magnitude()函数将傅里叶变换的双通道结果转换为0到255的范围。其函数原型如下:

cv2.magnitude(x, y)

  • x表示浮点型X坐标值,即实部
  • y表示浮点型Y坐标值,即虚部
    最终输出结果为幅值,即:

完整代码如下所示:

# -*- coding: utf-8 -*-
import numpy as np
import cv2
from matplotlib import pyplot as plt

#读取图像
img = cv2.imread('Lena.png', 0)

#傅里叶变换
dft = cv2.dft(np.float32(img), flags = cv2.DFT_COMPLEX_OUTPUT)

#将频谱低频从左上角移动至中心位置
dft_shift = np.fft.fftshift(dft)

#频谱图像双通道复数转换为0-255区间
result = 20*np.log(cv2.magnitude(dft_shift[:,:,0], dft_shift[:,:,1]))

#显示图像
plt.subplot(121), plt.imshow(img, cmap = 'gray')
plt.title('Input Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122), plt.imshow(result, cmap = 'gray')
plt.title('Magnitude Spectrum'), plt.xticks([]), plt.yticks([])
plt.show()

输出结果如图15-5所示,左边为原始“Lena”图,右边为转换后的频谱图像,并且保证低频位于中心位置。


五.OpenCV实现傅里叶逆变换

在OpenCV 中,通过函数cv2.idft()实现傅里叶逆变换,其返回结果取决于原始图像的类型和大小,原始图像可以为实数或复数。其函数原型如下所示:

dst = cv2.idft(src[, dst[, flags[, nonzeroRows]]])

  • src表示输入图像,包括实数或复数
  • dst表示输出图像
  • flags表示转换标记
  • nonzeroRows表示要处理的dst行数,其余行的内容未定义(请参阅dft描述中的卷积示例)

完整代码如下所示:

# -*- coding: utf-8 -*-
import numpy as np
import cv2
from matplotlib import pyplot as plt

#读取图像
img = cv2.imread('Lena.png', 0)

#傅里叶变换
dft = cv2.dft(np.float32(img), flags = cv2.DFT_COMPLEX_OUTPUT)
dftshift = np.fft.fftshift(dft)
res1= 20*np.log(cv2.magnitude(dftshift[:,:,0], dftshift[:,:,1]))

#傅里叶逆变换
ishift = np.fft.ifftshift(dftshift)
iimg = cv2.idft(ishift)
res2 = cv2.magnitude(iimg[:,:,0], iimg[:,:,1])

#显示图像
plt.subplot(131), plt.imshow(img, 'gray'), plt.title('Original Image')
plt.axis('off')
plt.subplot(132), plt.imshow(res1, 'gray'), plt.title('Fourier Image')
plt.axis('off')
plt.subplot(133), plt.imshow(res2, 'gray'), plt.title('Inverse Fourier Image')
plt.axis('off')
plt.show()

输出结果如图15-6所示,第一幅图为原始“Lena”图,第二幅图为傅里叶变换后的频谱图像,第三幅图为傅里叶逆变换,频谱图像转换为原始图像的过程。


六.总结

傅里叶变换的目的并不是为了观察图像的频率分布(至少不是最终目的),更多情况下是为了对频率进行过滤,通过修改频率以达到图像增强、图像去噪、边缘检测、特征提取、压缩加密等目的。下一篇文章,作者将结合傅里叶变换和傅里叶逆变换讲解它的应用。

时也,命也。
英语低分数线一分,些许遗憾,但不气馁,更加努力。雄关漫道真如铁,而今迈过从头越,从头越。苍山如海,残阳如血。感谢一路陪伴的人和自己。

无论成败,那段拼搏的日子都很美。结果只会让我更加努力,学好英语。下半年沉下心来好好做科研写文章,西藏之行,课程分享。同时,明天的博士考试加油,虽然裸泳,但也加油!还有春季招考开始准备。

最后补充马刺小石匠精神,当一切都看起来无济于事的时候,我去看一个石匠敲石头.他一连敲了100次,石头仍然纹丝不动。但他敲第101次的时候,石头裂为两半。可我知道,让石头裂开的不是那最后一击,而是前面的一百次敲击的结果。人生路漫漫,不可能一路一帆风顺,暂时的不顺只是磨练自己的必经之路,夜最深的时候也是距黎明最近的时刻,经历过漫漫长夜的打磨,你自身会更加强大。

最后希望这篇基础性文章对您有所帮助,如果有错误或不足之处,请海涵!

(By:Eastmount 2019-04-23 周二下午6点写于花溪 https://blog.csdn.net/Eastmount )

2019-09-05 17:19:53 Wing_Ming 阅读数 756

深度学习在图像处理领域中的应用综述》部分概念解读:

1.特征表达/提取方法->特征学习

图像特征是指图像的原始特性或属性,可以分为视觉特征或统计特征。视觉特征主要是人的视觉直觉感受的自然特征(图像的颜色、纹理和形状);统计特征是指需要通过变换或测量才能得到的人为特征(频谱、直方图等)。

常见特征提取方法:

  • LBP算法(Local Binary Patterns):一种用来描述图像局部纹理特征的算子,具有灰度不变性。

    其主要思想是在目标像素周围定义一个3x3的窗口,以目标像素为阈值,将相邻的8个像素的灰度值与目标像素进行对比,大于目标像素标记为1,小于等于则标记为0。每个窗口都可以产生一个8位的二进制数,这样就得到了目标像素的LBP值。然后计算每个区域的直方图,然后对该直方图进行归一化处理。最后将得到的每个区域的统计直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量。然后便可利用SVM或者其他机器学习算法进行分类。

  • HOG特征提取算法(Histogram of Oriented Gradient):在一幅图像中,图像的表象和形状能够被边缘或梯度的方向密度分布很好的表示,具有几何和光学不变性。

    其主要思想是将图像灰度化,采用Gamma校正法对输入图像进行颜色空间的标准化以调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;计算图像每个像素的梯度,将图像划分成小区域,统计每个区域的梯度直方图,将每几个区域组成一个批次,一个批次内所有区域的特征串联起来便得到该批次的HOG特征。将图像内的所有批次的HOG特征串联起来就可以得到该图像的HOG特征。这个就是最终的可供分类使用的特征向量了。

  • SIFT算子(Scale-invariant feature transform):通过求一幅图中的特征点及其有关尺寸和方向的描述子得到特征并进行图像特征点匹配,具有尺度不变性和旋转不变性。

    其主要思想是首先生成尺度空间->检测尺度空间极值点->去除不好的特征点->为每个关键点指定方向参数->生成关键点描述子->根据SIFT进行图像的匹配。

2.图像识别or图像取证

图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。模式识别是指对表示事物或现象的不同形式的信息做分析和处理从而得到一个对事物或现象做出描述、辨认和分类等的过程,其主要分为三种:统计模式识别、句法模式识别、模糊模式识别。

图像取证不同于图像识别的地方在于识别是区分图像内容里的差异,肉眼可以察觉到,而取证则是区分图像中以微弱信号存在的操作指纹,类间形态的差异微乎其微,所以对于图像取证问题一般的深度学习模型不能胜任。图像取证的性质必然决定了网络输入的改变, 只有放大了想要提取的指纹特征,深度学习模型才能更好地充当一个特征提取和分类器。 

相关研究:https://blog.csdn.net/qq_35509823/article/details/86505661

3.Degradation退化

随着网络结构的加深,带来了两个问题:一是消失/爆炸梯度,导致了训练十分难收敛,这类问题能够通过正则化和归一化解决;另一个是被称为degradation的退化现象。对合适的深度模型继续增加层数,模型准确率会下滑,训练误差和测试误差都会很高。其实当BN出现之后,梯度消失和爆炸的问题已经基本上被解决了,但是网络层数加深之后还是会出现效果差的情况,ResNet主要解决的是网络的退化问题。

解释1:网络越深,反传回来的梯度相关性越来越差,最后接近白噪声。我们认为图像具有局部相关性,因此梯度应该也具有类似的相关性,这样的更新才有意义,如果接近白噪声,那其实就可以认为做随机扰动。自然效果就越来越差了。解释2:引入残差之后对参数的变化更加的敏感。原本的网络只是学习一个从输入到输出的映射,现在学习的是输入和输出之间的差值。解释3:现在我们要训练一个深层的网络,它可能过深,假设存在一个性能最强的完美网络N,与它相比我们的网络中必定有一些层是多余的,那么这些多余的层的训练目标是恒等变换,只有达到这个目标我们的网络性能才能跟N一样。对于这些需要实现恒等变换的多余的层,要拟合的目标就成了H(x)=x,在传统网络中,网络的输出目标是F(x)=x,这比较困难,而在残差网络中,拟合的目标成了x-x=0,网络的输出目标为F(x)=0,这比前者要容易得多。解释4:类似LSTM的思想,加入一个进位闸,让数据能够传到后面去,不至于由于网络越来越深,到了后面学习不到有效的特征了。所以加入一个快捷键,让数据一直往下传,让每一层都能读到有效的特征。

4.降维

计算机的图像识别技术是一个异常高维的识别技术。不管图像本身的分辨率如何,其产生的数据经常是多维性的,这给计算机的识别带来了非常大的困难。想让计算机具有高效地识别能力,最直接有效的方法就是降维。降维分为线性降维和非线性降维。常见的线性降维方法有主成分分析(PCA)/线性奇异分析(LDA),它们简单、易于理解。但是通过线性降维处理的是整体的数据集合,所求的是整个数据集合的最优低维投影。经过验证,这种线性的降维策略计算复杂度高而且占用相对较多的时间和空间,因此就产生了基于非线性降维的图像识别技术,它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不破坏其本征结构的基础上对其进行降维,使计算机的图像识别在尽量低的维度上进行,这样就提高了识别速率。例如人脸图像识别系统所需的维数通常很高,其复杂度之高对计算机来说无疑是巨大的“灾难”。由于在高维度空间中人脸图像的不均匀分布,使得人类可以通过非线性降维技术来得到分布紧凑的人脸图像,从而提高人脸识别技术的高效性。

5.R-CNN

物体检测算法中常用到的几个概念:Bounding Box:bbox是包含物体的最小矩形,该物体应在最小矩形内部。物体检测中关于物体位置的信息输出是一组(x,y,w,h)数据,其中x,y代表着bbox的左上角或其他固定点,对应的w,h表示bbox的宽和高。一组(x,y,w,h)唯一确定一个定位框。Intersection over Union(IoU):对于两个区域R和R′,两个区域的重叠程度记为overlap。在训练网络的时候,我们常依据侯选区域和标定区域的IoU值来确定正负样本。非极大值抑制(Non-Maximum Suppression,NMS):就是把不是极大值的抑制掉,在物体检测上,就是对一个目标有多个标定框,使用极大值抑制算法滤掉多余的标定框。

R-CNN(即Region-CNN,是第一个成功将深度学习应用到目标检测上的算法。R-CNN基于CNN,线性回归,和SVM等算法,实现目标检测技术。物体检查系统可以大致分为四步进行:
获取输入图像->提取约2000个候选区域->将候选区域输入CNN网络(候选图片需缩放)->将CNN的输出输入SVM中进行类别的判定

6.目标检测

即找出图像中所有感兴趣的目标,确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。目标检测要解决的核心问题是:目标可能出现在图像的任何位置,可能有各种不同的大小,可能有各种不同的形状。

计算机视觉中关于图像识别有四大类任务:
分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
检测-Detection:解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物是什么。
分割-Segmentation:分为实例分割和场景分割,解决“每一个像素属于哪个目标物或场景”的问题。

7.四元数

四元数是用于表示旋转的一种方式,是简单的超复数,都是由实数加上三个虚数单位 i、j、k 组成,而且它们有如下的关系: i^2 = j^2 = k^2 = -1, i^0 = j^0 = k^0 = 1 , 每个四元数都是 1、i、j 和 k 的线性组合,即是四元数一般可表示为a + bi+ cj + dk,其中a、b、c 、d是实数。

对于i、j、k本身的几何意义可以理解为一种旋转,其中i旋转代表X轴与Y轴相交平面中X轴正向向Y轴正向的旋转,j旋转代表Z轴与X轴相交平面中Z轴正向向X轴正向的旋转,k旋转代表Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转,-i、-j、-k分别代表i、j、k旋转的反向旋转。