图像处理的学习规划

2016-09-13 17:49:42 hustlihe 阅读数 2701
  • 网络规划与设计(十)

    课程分7个部分,循序渐进地介绍寄存器、内存、程序结构、模块化程序设计、中断等内容,课程重视对学习方法的指导和引导,提倡和支持用实践的方式开展学习,目标是培养学习者的自学能力和实践能力,以此支持对最新的...

    145人学习 任铄
    免费试看

转自http://blog.csdn.net/passball/article/details/42805269

1. 数学

我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研的三门课,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学数目了。


2. 信号处理

图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。


2.1经典信号处理

信号与系统(第2版)  Alan V.Oppenheim等著 刘树棠译

离散时间信号处理(第2版)  A.V.奥本海姆等著 刘树棠译

数字信号处理:理论算法与实现胡广书 (编者)

 

2.2随机信号处理

现代信号处理 张贤达著

统计信号处理基础:估计与检测理论Steven M.Kay等著 罗鹏飞等译

自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

 

2.3 小波变换

信号处理的小波导引:稀疏方法(原书第3版)  tephane Malla著, 戴道清等译

 

2.4 信息论

信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译


3. 模式识别

Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

模式识别(英文版)(第4版) 西奥多里德斯著

Pattern Classification (2nd Edition) Richard O. Duda等著

Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

模式识别(第3版) 张学工著


4. 图像处理与计算机视觉的书籍推荐

图像处理,分析与机器视觉 第三版Sonka等著 艾海舟等译

Image Processing, Analysis and Machine Vision

这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。


数字图像处理 第三版 冈萨雷斯等著

Digital Image Processing

数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。


计算机视觉:理论与算法 RichardSzeliski著

Computer Vision: Theory and Algorithm

微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。


Multiple View Geometry in Computer Vision 第二版Harley等著

引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到电子版。


计算机视觉:一种现代方法 DAForsyth等著

Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了,还是值得一读。第二版已经在今年(2012年)出来了,在iask上可以找到非常清晰的版本,将近800页,补充了很多内容。期待影印版。


Machine vision: theory,algorithms, practicalities 第三版 Davies著

为数不多的英国人写的书,偏向于工业。


数字图像处理 第四版 Pratt著

Digital Image Processing

写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。


5 小结

罗嗦了这么多,实际上就是几个建议:

(1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。

(2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。

(3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

图像处理与计算机视觉:基础,经典以及最近发展(3)计算机视觉中的信号处理与模式识别

Last Update: 2012-6-23


从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法,按照字母顺序排的序。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868770

1.  Boosting


Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。

Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。


[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

[1998] Boosting the margin A new explanation for the effectiveness of voting methods

[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection

[2003] The Boosting Approach to Machine Learning An Overview

[2004 IJCV] Robust Real-time Face Detection


2. Clustering


聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。


[1989 PAMI] Unsupervised Optimal Fuzzy Clustering

[1991 PAMI] A validity measure for fuzzy clustering

[1995 PAMI] On cluster validity for the fuzzy c-means model

[1998] Some New Indexes of Cluster Validity

[1999 ACM] Data Clustering A Review

[1999 JIIS] On Clustering Validation Techniques

[2001] Estimating the number of clusters in a dataset via the Gap statistic

[2001 NIPS] On Spectral Clustering

[2002] A stability based method for discovering structure in clustered data

[2007] A tutorial on spectral clustering


3.  Compressive Sensing


最近大红大紫的压缩感知理论。


[2006 TIT] Compressed Sensing

[2008 SPM] An Introduction to Compressive Sampling

[2011 TSP] Structured Compressed Sensing From Theory to Applications


4. Decision Trees


对决策树感兴趣的同学这篇文章是非看不可的了。


[1986] Introduction to Decision Trees


5. Dynamical Programming


动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter


[1990 PAMI] using dynamic programming for solving variational problems in vision

[Book Chapter] Dynamic Programming


6.  Expectation Maximization


EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。


[1977] Maximum likelihood from incomplete data via the EM algorithm

[1996 SPM] The Expectation-Maximzation Algorithm


7.  Graphical Models


伯克利的乔丹大仙的Graphical Model,可以配合这Bishop的PRML一起看。


[1999 ML] An Introduction to Variational Methods for Graphical Models


8. Hidden Markov Model


HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。


[1989 ] A tutorial on hidden markov models and selected applications in speech recognition

[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hiddenMarkov models

[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

Hmm Chinese book.pdf


9.  Independent Component Analysis


同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。


[1999] Independent Component Analysis A Tutorial

[2000 NN] Independent component analysis algorithms and applications

[2000] Independent Component Analysis Algorithms and Applications


10. Information Theory


计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。


[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

[2010] An information theory perspective on computational vision


11.  Kalman Filter


这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。


[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

[1970] Least-squares estimation_from Gauss to Kalman

[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

[2000] The Unscented Kalman Filter for Nonlinear Estimation

[2001 Siggraph] An Introduction to the Kalman Filter_full

[2003] A Study of the Kalman Filter applied to Visual Tracking


12.  Pattern Recognition and Machine Learning


模式识别名气比较大的几篇综述


[2000 PAMI] Statistical pattern recognition a review

[2004 CSVT] An Introduction to Biometric Recognition

[2010 SPM] Machine Learning in Medical Imaging


13. Principal Component Analysis


著名的PCA,在特征的表示和特征降维上非常有用。


[2001 PAMI] PCA versus LDA

[2001] Nonlinear component analysisas a kernel eigenvalue problem

[2002] A Tutorial on Principal Component Analysis

[2004 PAMI] Two-dimensional PCA a new approach to appearance-based face representation and recognition

[2009] A Tutorial on Principal Component Analysis

[2011] Robust Principal Component Analysis

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


14.  Random Forest


随机森林


[2001 ML] Random Forests


15.      RANSAC


随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。


[2009 BMVC] Performance Evaluation of RANSAC Family


16.      Singular Value Decomposition

对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter

[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

[Book Chapter] Singular Value Decomposition and Principal Component Analysis


17.  Sparse Representation


这里主要是Proceeding of IEEE上的几篇文章


[2009 PAMI] Robust Face Recognition via Sparse Representation

[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

[2010 PIEEE] Dictionaries for Sparse Representation Modeling

[2010 PIEEE] It's All About the Data

[2010 PIEEE] Matrix Completion With Noise

[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

[2011 SPM] Directionary Learning


18.   Support Vector Machines

[1998] A Tutorial on Support Vector Machines for Pattern Recognition

[2004] LIBSVM A Library for Support Vector Machines


19.  Wavelet

在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。


说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。


[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

[1996 PAMI] Image Representation using 2D Gabor Wavelet

[1998 ] FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS

[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

[2000 TCE] The JPEG2000 still image coding system_ an overview

[2002 TIP] The curvelet transform for image denoising

[2003 TIP] Gray and color imagecontrast enhancement by the curvelet transform

[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

[2003 TIP] The finite ridgelet transform for image representation

[2005 TIP] Sparse Geometric Image Representations With Bandelets

[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

[2010 SPM] The Curvelet Transform


图像处理与计算机视觉:基础,经典以及最近发展(4)图像处理与分析

Last update: 2012-6-3

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

本章的下载地址在:

http://iask.sina.com.cn/u/2252291285/ish?folderid=868771


1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

[1998 ICCV] BilateralFiltering for Gray and Color Images

[2008 TIP] AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal


2. Color

如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

[1991 IJCV] Color Indexing

[2000 IJCV] The EarthMover's Distance as a Metric for Image Retrieval

[2001 PAMI] Colorinvariance

[2002 IJCV] StatisticalColor Models with Application to Skin Detection

[2003] A review of RGBcolor spaces

[2007 PR]A survey ofskin-color modeling and detection methods

Gamma.pdf

GammaFAQ.pdf


3.Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE] Trends andperspectives in image and video coding


4.Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV] Vision and theAtmosphere

[2003 TIP] Gray and colorimage contrast enhancement by the curvelet transform

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastenhancement-part II

[2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastEnhancement-part I

[2007 TIP] TransformCoefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

[2009 TIP] A HistogramModification Framework and Its Application for Image Contrast Enhancement


5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

[1972] Bayesian-BasedIterative Method of Image Restoration

[1974] an iterative techniquefor the rectification of observed distributions

[1990 IEEE] Iterativemethods for image deblurring

[1996 SPM] Blind ImageDeconvolution

[1997 SPM] Digital imagerestoration

[2005] Digital ImageReconstruction - Deblurring and Denoising

[2006 Siggraph] RemovingCamera Shake from a Single Photograph

[2008 Siggraph]High-quality Motion Deblurring from a Single Image

[2011 PAMI]Richardson-Lucy Deblurring for Scenes under a Projective Motion Path


6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

[2008 Siggraph] SingleImage Dehazing

[2009 CVPR] Single ImageHaze Removal Using Dark Channel Prior

[2011 PAMI] Single ImageHaze Removal Using Dark Channel Prior


7. Denoising

图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion. II

[1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion

[1992] Nonlinear totalvariation based noise removal algorithms

[1994 SIAM] Signal andimage restoration using shock filters and anisotropic diffusion

[1995 TIT] De-noising bysoft-thresholding

[1998 TIP] Orientationdiffusions

[2000 TIP] Adaptivewavelet thresholding for image denoising and compression

[2000 TIP] Fourth-orderpartial differential equations for noise removal

[2001] Denoising  through wavelet shrinkage

[2002 TIP] The CurveletTransform for Image Denoising

[2003 TIP] Noise removalusing fourth-order partial differential equation with applications to medicalmagnetic resonance images in space and time

[2008 PAMI] AutomaticEstimation and Removal of Noise from a Single Image

[2009 TIP] Is DenoisingDead


8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

[1980] theory of edgedetection

[1983 Canny Thesis] findedge

[1986 PAMI] AComputational Approach to Edge Detection

[1990 PAMI] Scale-spaceand edge detection using anisotropic diffusion

[1991 PAMI] The design anduse of steerable filters

[1995 PR] Multiresolutionedge detection techniques

[1996 TIP] Optimal edgedetection in two-dimensional images

[1998 PAMI] Local ScaleControl for Edge Detection and Blur Estimation

[2003 PAMI] Statisticaledge detection_ learning and evaluating edge cues

[2004 IEEE] Edge DetectionRevisited

[2004 PAMI] Design ofsteerable filters for feature detection using canny-like criteria

[2004 PAMI] Learning toDetect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

[2011 IVC] Edge and lineoriented contour detection State of the art


9. Graph Cut

基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not flyChina Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

[2000 PAMI] Normalizedcuts and image segmentation

[2001 PAMI] Fastapproximate energy minimization via graph cuts

[2004 PAMI] What energyfunctions can be minimized via graph cuts


10.Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU] A Survey ofthe Hough Transform

[1989] A Comparative studyof Hough transform methods for circle finding

[1992 PAMI] Shapesrecognition using the straight line Hough transform_ theory and generalization

[1997 PR] Extraction ofline features in a noisy image

[2000 CVIU] RobustDetection of Lines Using the Progressive Probabilistic Hough Transform


11. Image Interpolation

图像插值,偶尔也用得上。一般来说,双三次也就够了

[2000 TMI] Interpolationrevisited


12. Image Matting

也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd] Image and VideoMatting A Survey

[2008 PAMI] A Closed-FormSolution to Natural Image Matting

[2008 PAMI] SpectralMatting


13.  Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994] The statistics ofnatural images

[2003 JMIV] On Advances inStatistical Modeling of Natural Images

[2009 IJCV] Fields ofExperts

[2009 PAMI] Modelingmultiscale subbands of photographic images with fields of Gaussian scalemixtures


14. Image Quality Assessment

在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

[2004 TIP] Image qualityassessment from error visibility to structural similarity

[2011 TIP] blind imagequality assessment From Natural Scene Statistics to Perceptual Quality


15.  Image Registration

图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

[1992 MIA] Image matching asa diffusion process

[1992 PAMI] A Method forRegistration of 3-D shapes

[1992] a survey of imageregistration techniques

[1998 MIA] A survey ofmedical image registration

[2003 IVC] Imageregistration methods a survey

[2003 TMI]Mutual-Information-Based Registration of Medical Survey

[2011 TIP] Hairisregistration


16. Image Retrieval

图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

[2000 PAMI] Content-basedimage retrieval at the end of the early years

[2000 TIP] PicToSeekCombining Color and Shape Invariant Features for Image Retrieval

[2002] Content-Based ImageRetrieval Systems A Survey

[2008] Content-Based ImageRetrieval-Literature Survey

[2010] Plant ImageRetrieval Using Color,Shape and Texture Features

[2012 PAMI] A MultimediaRetrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

CBIR Chinese

fundament of cbir


17. Image Segmentation

图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

[2004 IJCV] EfficientGraph-Based Image Segmentation

[2008 CVIU] Imagesegmentation evaluation A survey of unsupervised methods

[2011 PAMI] ContourDetection and Hierarchical Image Segmentation


18. Level Set

大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

[1995 PAMI] Shape modelingwith front propagation_ a level set approach

[2001 JCP] Level SetMethods_ An Overview and Some Recent Results

[2005 CVIU] Geodesicactive regions and level set methods for motion estimation and tracking

[2007 IJCV] A Review ofStatistical Approaches to Level Set Segmentation

[2008 ECCV] RobustReal-Time Visual Tracking using Pixel-Wise Posteriors

[2010 TIP] DistanceRegularized Level Set Evolution and its Application to Image Segmentation


19.Pyramid

其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

[1983] The LaplacianPyramid as a Compact Image Code


20. Radon Transform

Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

[1993 PAMI] Imagerepresentation via a finite Radon transform

[1993 TIP] The fastdiscrete radon transform I theory

[2007 IVC] Generalisedfinite radon transform for N×N images


21.Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

[1987] Scale-spacefiltering

[1990 PAMI] Scale-Spacefor Discrete Signals

[1994] Scale-space theoryA basic tool for analysing structures at different scales

[1998 IJCV] Edge Detectionand Ridge Detection with Automatic Scale Selection

[1998 IJCV] FeatureDetection with Automatic Scale Selection


22. Snake

活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

[1987 IJCV] Snakes ActiveContour Models

[1996 ] deformable modelin medical image A Survey

[1997 IJCV] geodesicactive contour

[1998 TIP] Snakes, shapes,and gradient vector flow

[2000 PAMI] Geodesic activecontours and level sets for the detection and tracking of moving objects

[2001 TIP] Active contourswithout edges


23.  Super Resolution

超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002] Example-BasedSuper-Resolution

[2003 SPM] Super-Resolution Image Reconstruction A Technical Overview

[2009 ICCV] Super-Resolutionfrom a Single Image

[2010 TIP] ImageSuper-Resolution Via Sparse Representation


24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE] OTSU Athreshold selection method from gray-level histograms

[2001 JISE] A Fast Algorithmfor Multilevel Thresholding

[2004 JEI] Survey overimage thresholding techniques and quantitative performance evaluation


25. Watershed

分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI] Watersheds indigital spaces an efficient algorithm based on immersion simulations

[2001]The WatershedTransform Definitions, Algorithms and Parallelizat on Strategies

2019-09-06 17:19:55 OpenSceneGraph 阅读数 978
  • 网络规划与设计(十)

    课程分7个部分,循序渐进地介绍寄存器、内存、程序结构、模块化程序设计、中断等内容,课程重视对学习方法的指导和引导,提倡和支持用实践的方式开展学习,目标是培养学习者的自学能力和实践能力,以此支持对最新的...

    145人学习 任铄
    免费试看

基于深度学习的医学图像分割模型研究_曹祺炜

1.基于改进的3D-FCN+CRF以及MS-CapsNetGAN实现脑肿瘤图像分割

图像语义分割,简单而言就是给定一张图片,对图片上的每一个像素点分类,不同颜色代表不同类别。图像分割的主要步骤:图像预处理、数据准备以及图像特征提取、分类器分类和后期处理。前端使用FCN进行特征粗提取,后端使用CRF/MRF优化前端的输出,最后得到分割图。

  • FCN-全卷积网络

此处的FCN主要使用了三种技术:卷积化(Convolutional),上采样(Upsample),跳跃结构(Skip Layer)。

卷积化即是将普通的分类网络丢弃全连接层,换上对应的卷积层即可。上采样即是反卷积,框架不同名字不同,Caffe和Kera里叫Deconvolution,而tensorflow里叫conv_transpose。忽略连接结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进行上采样之后来优化输出。

  • MRF-马尔科夫随机场

随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。举词性标注的例子:假如我们有一个十个词形成的句子需要做词性标注。这十个词每个词的词性可以在我们已知的词性集合(名词,动词...)中去选择。当我们为每个词选择完词性后,这就形成了一个随机场。

马尔科夫随机场是随机场的特例,它假设随机场中某一个位置的赋值仅仅与和它相邻的位置的赋值有关,和与其不相邻的位置的赋值无关。继续举十个词的句子词性标注的例子:如果我们假设所有词的词性只和它相邻的词的词性有关时,这个随机场就特化成一个马尔科夫随机场。比如第三个词的词性除了与自己本身的位置有关外,只与第二个词和第四个词的词性有关。 

  • CRF-条件随机场

CRF是马尔科夫随机场的特例,它假设马尔科夫随机场中只有和两种变量,一般是给定的,而一般是在给定的条件下我们的输出。这样马尔科夫随机场就特化成了条件随机场。在我们十个词的句子词性标注的例子中,是词,是词性。因此,如果我们假设它是一个马尔科夫随机场,那么它也就是一个CRF。

对于CRF,我们给出准确的数学语言描述:设与是随机变量,是给定时的条件概率分布,若随机变量构成的是一个马尔科夫随机场,则称条件概率分布是条件随机场。

è¿éåå¾çæè¿°
①条件随机场保留了隐含马尔可夫模型的一些特性,比如图中的y1,y2,..y1,y2,..等状态的序列还是一个马尔可夫链。
②在图中,顶点x1,y1x1,y1代表一个个随机变量,顶点之间的弧代表他们之间的依赖关系,采用概率分布P(x1,y1)来描述。
③它的特殊性在于变量之间要遵守马尔可夫假设,即每个状态的转移概率只取决于相邻的状态,这一点,它和贝叶斯网络相同。不同之处在于贝叶斯网络是有向图,而条件随机场是无向图,

2.图像分割结果评判标准:

除对分割结果定性分析之外,对分割结果的定量比较显得更为重要。Dice 相似系数(Dice  Similarity  Coefficient,  DSC)法被广泛应用于评估图像分割算法性能的度量,此外,准确率(Accuracy)、精确度(Precision)、召回率(Recall)、过分割率、欠分割率(Under-segmentation  Error,  UE)、真阳性率(True  Positive  Rate,  TPR)和阳性预测值(positive  predictive  value,  PPV)等指标也经常被用作评估算法的分割结果。 精确率指的是输出结果中正确像素点占总像素点的比例,召回率指的是正确像素点占传统人工分割结果中的比例,精确率与召回率的调和均值用 F1-score 表示,F1-score 值越高,则说明算法的分割效果越好,当 F1-score=1 时,表示试验所得的结果与参考标准一致。

https://blog.csdn.net/woshisunwen/article/details/84308996

3.图像分割方法的分类:基于阈值/边缘/区域/活动轮廓模型/模糊聚类算法/数学形态学/神经网络的图像分割

 基于神经网络的图像分割:

通常,CNN 由卷积,池化和完全连接的神经网络层组成。卷积层利用空间相关性在输入图像中,通过共享滤波器内核权重来计算每个特征映射。池化层允许减少每个输入要素图的尺寸,同时保留最相关的要素响应。每个 CNN 层的输出通常馈送到非线性激活功能。使用非线性激活函数允许我们在输入图像和期望输出之间建模非常复杂的映射。

CNN 的一个缺点是当卷积特征被馈送到网络的完全连接层时,图像的空间信息丢失。然而,空间信息对于语义分割任务尤其重要。因此,Long 等人提出全卷积网络FCN 克服这个限制。在 FCN 中,CNN 的最终密集连接层由转置卷积层代替,以便将学习的上采样应用于网络内的低分辨率特征映射。该操作可以在执行语义分割的同时恢复输入图像的原始空间维度。类似的网络结构已成功应用于医学成像中的语义分割任务和生物医学图像的分割。从共聚焦显微镜等模式扩展到 3D 生物医学成像数据或磁共振成像。在典型的 FCN 架构中,可以利用跳过连接来连接网络的不同级别,以便保留更接近原始图像的图像特征。这有助于网络实现更详细的分割结果。 

https://blog.csdn.net/caoniyadeniniang/article/details/76014526

4.模糊聚类算法FCM(FCM算法是目前比较流行的一种模糊聚类算法)

  • (1)基于模糊关系的分类法:其中包括谱系聚类算法(又称系统聚类法)、基于等价关系的聚类算法、基于相似关系的聚类算法和图论聚类算法等等。它是研究比较早的一种方法,但是由于它不能适用于大数据量的情况,所以在实际中的应用并不广泛。
  • (2)基于目标函数的模糊聚类算法:该方法把聚类分析归结成一个带约束的非线性规划问题,通过优化求解获得数据集的最优模糊划分和聚类。该方法设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现。因此,随着计算机的应用和发展,基于目标函数的模糊聚类算法成为新的研究热点。
  • (3)基于神经网络的模糊聚类算法:它是兴起比较晚的一种算法,主要是采用竞争学习算法来指导网络的聚类过程。

5.体素

体素是体积元素(Volume Pixel)的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。一如其名,是数字数据于三维空间分割上的最小单位,体素用于三维成像、科学数据与医学影像等领域。

体素成像是一种在二维图像显示器上显示体数据的方法。这些体数据可能是在三维空间物体采样的结果,例如人脑的磁共振图像。通过体素成像,三维空间采样点的集合可以转换成计算机二维屏幕上有意义的图像。体素成像与传统图形显示方法的思想截然不同,它的最大特点就在于放弃了传统图形学中体由面构造这一约束,在不构造物体表面几何描述的情况下直接对体数据进行显示,采用体绘制光照模型直接从三维数据场中绘制出各种物理量的分带晴况,也就是说,直接研究光线穿过三维体数据场时的变化,得到最终的绘制结果。能够描述物体内部结构是体素成像最大的优势。

6.胶囊网络

解决了CNN的问题:CNN的组件的朝向和空间上的相对关系对它来说不重要,它只在乎有没有特征。还有就是池化层:不仅减少了参数,还可以避免过拟合。但是,它的确抛弃了一些信息,比如位置信息。同一物体,尽管拍摄的角度不同,但你的大脑可以轻易的辨识这是同一对象,CNN却没有这样的能力。所以,CapsNet应运而生。

例如输入一张手写字的图片。首先对这张图片做了常规的卷积操作,得到ReLU Conv1;然后再对ReLU Conv1做卷积操作,并将其调整成适用于CapsNet的向量神经元层PrimaryCaps,而不是以往的标量神经元。

神经网络和胶囊网络区别: 神经网络每个神经元输出的是一个标量,胶囊网络输出是一个向量。所谓胶囊就是一个向量,它可包含任意个值,每个值代表了当前需要识别的物体的一个特征。结合之前对传统CNN的学习,我们知道,卷积层的每个值,都是上一层某一块区域和卷积核完成卷积操作,即线性加权求和的结果,它只有一个值,所以是标量。而我们的胶囊网络,它的每一个值都是向量,也就是说,这个向量不仅可表示物体的特征、还可以包括物体的方向、状态等。

PrimaryCaps到DigitCaps层的传播也就是CapsNet和以往CNN操作的最大区别。DigitCaps中一共10个向量,每个向量中元素的个数为16。对这10个向量求模,求得模值最大的那个向量代表的就是图片概率最大的那个分类。因为胶囊网络中:用向量模的大小衡量某个实体出现的概率,模值越大,概率越大。

 

2018-04-27 22:58:06 Doublexs 阅读数 1240
  • 网络规划与设计(十)

    课程分7个部分,循序渐进地介绍寄存器、内存、程序结构、模块化程序设计、中断等内容,课程重视对学习方法的指导和引导,提倡和支持用实践的方式开展学习,目标是培养学习者的自学能力和实践能力,以此支持对最新的...

    145人学习 任铄
    免费试看

(一)对于图像处理的简单介绍

     图像处理是基于各类算法,对于图像进行去噪,检测,模糊恢复等等操作的总称;在无人驾驶汽车被不断提及的今天,图像处理的作用显得越来越强大;由于在驾驶过程中,我们会面临各类的突发状况,所以,算法的灵活性遭受到了重大的考验。在图像处理过程中,我们经常遇到的一些专业性的,常阅读到的词语有:matlab,opencv,哈夫变换,边缘检测,灰度处理等。图像处理,涉及到的主要是对于图像的一个简单的算法处理,其实使用到的算法并不是很多,并且很多算法在网络上也可以找到相应的代码,供于学习。但是却又是因为实时环境的多变性,所以使得图像处理的难度变得很大。我们需要对图像进行静态处理,动态推算,模型建立,才能算是一次完整的图像处理过程。当然,我们这些大多数是基于计算机视觉实现;由于计算机的计算速度很快,所以在进行推算演算时的效率比较高。图像处理,新手入门时,可以先从基本理论的一个认识开始,需要掌握简单的线代知识、编程知识以及matlab或者opencv的基本操作。

(二)学习计划

    由于图像处理的繁琐与复杂,所以需要学习的东西比较多。

    我们从简单到难,首先需要具备数学学习能力:由于计算机的图像处理,基本上是将图片当作矩阵,进行算法的实现;(由于动态视频是由一帧一帧的图像组成,我们就不讨论视频处理),在matlab下,图像主要是分为四类,一类是rgb(红,绿,蓝),一类是灰度图像,一类是二值图像,还有就是索引图像。我们主要介绍一类思想:将图像当作一个m * n的矩阵,并在此矩阵放到(x,y)坐标中进行实现,这样,我们就把问题分解为了数学问题;通过哈夫变换,边缘检测,傅里叶变换等数学方式,解决图像问题;

   其次,由于我们主要是通过算法实现,并且基于计算机视觉,所以我们需要具有一定的编程知识。python,c++,c等语言都是比较适合用于图像处理的,我们简单比较一下python与c++;python是近两年比较火的一门语言,由于python的语法简单,交互性强,上手比较快捷,所以大多数时候我们会从python入手学习,但是由于python的封装性与效率性较低,并且在线能力不强,所以很多时候用于离线操作;c++是作者认为除了汇编语言外,最难的一门编程语言了,由于c++具有复杂的语法,严谨的编译方式,较强的封装性以及较高的效率,所以在需要进行及时性,在线性强的项目中,使用比较广泛,并且由于封装性好,常常用于开发引擎与系统;

   再来,我们设计好了算法,需要在强大的平台上进行操作,所以,掌握一些平台操作方式,以及平台的搭建方式,比较重要;推荐学习Linux,开源性强。

(三)学习目的

    通过自己简单的学习,可以掌握一些图像处理的算法,并且能够熟练的运用,了解到图像处理的主要模式以及主要发展架构,是最为重要的,坚持就是胜利

   

2015-07-29 10:52:41 qq_26898461 阅读数 16011
  • 网络规划与设计(十)

    课程分7个部分,循序渐进地介绍寄存器、内存、程序结构、模块化程序设计、中断等内容,课程重视对学习方法的指导和引导,提倡和支持用实践的方式开展学习,目标是培养学习者的自学能力和实践能力,以此支持对最新的...

    145人学习 任铄
    免费试看

经历了半年多的学习,图像处理总算入门了,做了个小项目,将之前所学的都用到了。虽不敢说精通,但该掌握的工具都掌握了,包括图像算法。图像处理虽说不难,但刚开始入门,还是不易的,我也走了不少弯路,希望借鉴给有缘人。

首先,搞图像处理,熟悉图像算法是必经之路,如果上过图像处理这门课的话,再好不过。如果没有,我推荐中科院研究生院刘定生老师的数字图像处理与分析(视频),这位老师上课引人入胜,值得推荐。其次,在这个阶段,配套的书籍自然是《冈萨雷斯版数字图像处理》这本书,最好同时用matlab软件,仿真每一个图像算法案例,推荐《matlab宝典》。大概花一个月时间,基本的图像算法,相信你已经学完了。第二阶段,希望你再次认真学习C++,推荐《C++ Primer》,因为以后我们开发程序,都是基于类的开发,什么虚函数,类的继承、多态、命名空间、文件的输入输出、模板STL都应非常熟悉。在这之后,VC++你也应该掌握,圣经级的书籍自然是孙鑫的《VC++深入详解》,大概花一个时间,将书上每一个代码都敲一边,消息的映射机制,尤其要非常熟悉,MFC的框架结构也应明白。在此阶段,有时间的话,看看中科院研究生院杨力祥老师的高级windows程序设计(视频),这些代码开发都是基于VC6.0的。

以上如果你都搞明白了,就进入重头戏了。将图像处理算法和代码结合起来,进行开发。首推北航老师谢凤英, 赵主培主编的《Visual C++数字图像处理》这本书,将上面的代码都敲一边,你会有不一样的感觉。

最后一个阶段,因为在实际的开发过程中,不可能每一基本算法都要自己写,前人已经写好了。所以推荐大家使用opencv这个开源库,他实现了大多数图像算法,实际开发中,用他的函数就够了,推荐书籍《学习opencv》,《opencv教程》,视频自然是庞峰老师的视频,大家可以在opencv中文论坛上免费观看。至此,该掌握的工具你已经掌握了,但是将MFC和opencv结合起来开发,最好是要有一个项目,你会理解许多。

最后,我想说MFC开发已经过时了(俗称没饭吃),但是他的那套消息机制还是非常有用的,建议大家界面开发的用C#或QT,代码编写结合opencv,这样你会轻松很多。在图像处理领域中,真正得到大牛都是搞算法的,建议大家在看看计算机视觉和模式识别、机器学习方面的书籍。至此,以上就是我的感悟。

2017-10-29 20:26:38 wehung 阅读数 673
  • 网络规划与设计(十)

    课程分7个部分,循序渐进地介绍寄存器、内存、程序结构、模块化程序设计、中断等内容,课程重视对学习方法的指导和引导,提倡和支持用实践的方式开展学习,目标是培养学习者的自学能力和实践能力,以此支持对最新的...

    145人学习 任铄
    免费试看
希望自己能够在计算机视觉上能够有自己的成就