图像处理底层是svd_svd 图像 - CSDN
  • 图像处理总结概念

    万次阅读 多人点赞 2018-05-08 13:29:41
    1.直方图:一幅图像由不同灰度值的像素组成,图像中灰度的分布情况是该图像的一个重要特征。图像的灰度直方图就描述了图像中灰度分布情况,能够很直观的展示出图像中各个灰度级所占的多少。图像的灰度直方图是灰度级...

    1.直方图:一幅图像由不同灰度值的像素组成,图像中灰度的分布情况是该图像的一个重要特征。图像的灰度直方图就描述了图像中灰度分布情况,能够很直观的展示出图像中各个灰度级所占的多少。图像的灰度直方图是灰度级的函数,描述的是图像中具有该灰度级的像素的个数:其中,横坐标是灰度级,纵坐标是该灰度级出现的频率。

    数字图像在范围[0,G]内总共有L个灰度级,直方图为h(rK)=nk

    rK是去见[0,G]内的第K级亮度,nk是灰度级为rK的像素数。

    归一化直方图:

    1.1直方图对比:

    方法描述:有两幅图像patch(当然也可是整幅图像),分别计算两幅图像的直方图,并将直方图进行归一化,然后按照某种距离度量的标准进行相似度的测量。

    方法的思想:基于简单的向量相似度来对图像相似度进行度量。

    优点:直方图能够很好的归一化,比如256个bin条,那么即使是不同分辨率的图像都可以直接通过其直方图来计算相似度,计算量适中。比较适合描述难以自动分割的图像。

    缺点:直方图反应的是图像灰度值得概率分布,并没有图像的空间位置信息在里面,因此,常常出现误判;从信息论来讲,通过直方图转换,信息丢失量较大,因此单一的通过直方图进行匹配显得有点力不从心。

     

    矩阵分解的方法

    方法描述:将图像patch做矩阵分解,比如SVD奇异值分解和NMF非负矩阵分解等,然后再做相似度的计算。

    方法思想:因为图像本身来讲就是一个矩阵,可以依靠矩阵分解获取一些更加鲁棒的特征来对图像进行相似度的计算。

    基于SVD分解的方法优点:奇异值的稳定性,比例不变性,旋转不变性和压缩性。即奇异值分解是基于整体的表示,不但具有正交变换、旋转、位移、镜像映射等代数和几何上的不变性,而且具有良好的稳定性和抗噪性,广泛应用于模式识别与图像分析中。对图像进行奇异值分解的目的是得到唯一、稳定的特征描述,降低特征空间的维度,提高抗干扰能力。

    基于SVD分解的方法缺点是:奇异值分解得到的奇异矢量中有负数存在,不能很好的解释其物理意义。

    基于NMF分解的方法:将非负矩阵分解为可以体现图像主要信息的基矩阵与系数矩阵,并且可以对基矩阵赋予很好的解释,比如对人脸的分割,得到的基向量就是人的“眼睛”、“鼻子”等主要概念特征,源图像表示为基矩阵的加权组合,所以,NMF在人脸识别场合发挥着巨大的作用。

    基于矩阵特征值计算的方法还有很多,比如Trace变换,不变矩计算等。

    基于特征点方法

    方法描述:统计两个图像patch中匹配的特征点数,如果相似的特征点数比例最大,则认为最相似,最匹配

    方法思想:图像可以中特征点来描述,比如sift特征点,LK光流法中的角点等等。这样相似度的测量就转变为特征点的匹配了。

    以前做过一些实验,关于特征点匹配的,对一幅图像进行仿射变换,然后匹配两者之间的特征点,选取的特征点有sift和快速的sift变形版本surf等。

    方法优点:能被选作特征点的大致要满足不变性,尺度不变性,旋转不变等。这样图像的相似度计算也就具备了这些不变性。

    方法缺点:特征点的匹配计算速度比较慢,同时特征点也有可能出现错误匹配的现象。

    基于峰值信噪比(PSNR)的方法

    当我们想检查压缩视频带来的细微差异的时候,就需要构建一个能够逐帧比较差视频差异的系统。最

    常用的比较算法是PSNR( Peak signal-to-noise ratio)。这是个使用“局部均值误差”来判断差异的最简单的方法,假设有这两幅图像:I1和I2,它们的行列数分别是i,j,有c个通道。每个像素的每个通道的值占用一个字节,值域[0,255]。注意当两幅图像的相同的话,MSE的值会变成0。这样会导致PSNR的公式会除以0而变得没有意义。所以我们需要单独的处理这样的特殊情况。此外由于像素的动态范围很广,在处理时会使用对数变换来缩小范围。

                

                  

    基于结构相似性(SSIM,structural similarity (SSIM) index measurement)的方法

    结构相似性理论认为,自然图像信号是高度结构化的,即像素间有很强的相关性,特别是空域中最接近的像素,这种相关性蕴含着视觉场景中物体结构的重要信息;HVS的主要功能是从视野中提取结构信息,可以用对结构信息的度量作为图像感知质量的近似。结构相似性理论是一种不同于以往模拟HVS低阶的组成结构的全新思想,与基于HVS特性的方法相比,最大的区别是自顶向下与自底向上的区别。这一新思想的关键是从对感知误差度量到对感知结构失真度量的转变。它没有试图通过累加与心理物理学简单认知模式有关的误差来估计图像质量,而是直接估计两个复杂结构信号的结构改变,从而在某种程度上绕开了自然图像内容复杂性及多通道去相关的问题.作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。

    图像模板匹配:一般而言,源图像与模板图像patch尺寸一样的话,可以直接使用上面介绍的图像相似度测量的方法;如果源图像与模板图像尺寸不一样,通常需要进行滑动匹配窗口,扫面个整幅图像获得最好的匹配patch。

    模板匹配:是一种在源图像中寻找与图像patch最相似的技术,常常用来进行目标的识别、跟踪与检测。其中最相似肯定是基于某种相似度准则来讲的,也就是需要进行相似度的测量。另外,寻找就需要在图像上进行逐行、逐列的patch窗口扫描,当然也不一定需要逐行逐列的扫描,当几个像素的误差比计算速度来的不重要时就可以设置扫描的行列步进值,以加快扫描和计算的时间消耗。下面就对相似度测量和模板匹配进行介绍(所有的图像都假定是灰度图)。

             

             

    1.2反向投影:一种记录给定图像中像素点如何适应直方图模型像素分布方式的一种方法,也就是说首先计算某一种特征的直方图模板,然后使用模板在去寻找图像中存在的该特征的方法。  作用:反向投影用于在输入图像(通常较大)中查找特定图像(通常较小或者仅1个像素,以下将其称为模板图像)最匹配的点或者区域,也就是定位模板图像出现在输入图像的位置。

    反向投影如何查找(工作)?

    查找的方式就是不断的在输入图像中切割跟模板图像大小一致的图像块,并用直方图对比的方式与模板图像进行比较。

    反向投影的结果是什么?

    反向投影的结果包含了:以每个输入图像像素点为起点的直方图对比结果。可以把它看成是一个二维的浮点型数组,二维矩阵,或者单通道的浮点型图像。

    假设我们有一张100x100的输入图像,有一张10x10的模板图像,查找的过程是这样的:

    1)从输入图像的左上角(0,0)开始,切割一块(0,0)至(10,10)的临时图像;

    2)生成临时图像的直方图;

    3)用临时图像的直方图和模板图像的直方图对比,对比结果记为c;

    4)直方图对比结果c,就是结果图像(0,0)处的像素值;

    5)切割输入图像从(0,1)至(10,11)的临时图像,对比直方图,并记录到结果图像;

    6)重复(1)~(5)步直到输入图像的右下角。

    1.3.直方图均衡化:如果一副图像的像素占有很多的灰度级而且分布均匀,那么这样的图像往往有高对比度和多变的灰度色调。直方图均衡化就是一种能仅靠输入图像直方图信息自动达到这种效果的变换函数。它的基本思想是对图像中像素个数多的灰度级进行展宽,而对图像中像素个数少的灰度进行压缩,从而扩展像元取值的动态范围,提高了对比度和灰度色调的变化,使图像更加清晰。直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。这种方法通常用来增加许多图像的局部对比度,尤其是当图像的有用数据的对比度相当接近的时候。通过这种方法,亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度,直方图均衡化通过有效地扩展常用的亮度来实现这种功能。

    直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。

    直方图均衡化的基本思想是把原始图的直方图变换为均匀分布的形式,这样就增加了象素灰度值的动态范围从而可达到增强图像整体对比度的效果。设原始图像在(x,y)处的灰度为f,而改变后的图像为g,则对图像增强的方法可表述为将在(x,y)处的灰度f映射为g。在灰度直方图均衡化处理中对图像的映射函数可定义为:g = EQ (f),这个映射函数EQ(f)必须满足两个条件(其中L为图像的灰度级数):

    (1)EQ(f)在0≤f≤L-1范围内是一个单值单增函数。这是为了保证增强处理没有打乱原始图像的灰度排列次序,原图各灰度级在变换后仍保持从黑到白(或从白到黑)的排列。

    (2)对于0≤f≤L-1有0≤g≤L-1,这个条件保证了变换前后灰度值动态范围的一致性。

    这种方法对于背景和前景都太亮或者太暗的图像非常有用,这种方法尤其是可以带来X光图像中更好的骨骼结构显示以及曝光过度或者曝光不足照片中更好的细节。这种方法的一个主要优势是它是一个相当直观的技术并且是可逆操作,如果已知均衡化函数,那么就可以恢复原始的直方图,并且计算量也不大。这种方法的一个缺点是它对处理的数据不加选择,它可能会增加背景杂讯的对比度并且降低有用信号的对比度;变换后图像的灰度级减少,某些细节消失;某些图像,如直方图有高峰,经处理后对比度不自然的过分增强。


    2.滤波:图像滤波,即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制,是图像预处理中不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。目的:1、消除图像中混入的噪声;2、为图像识别抽取出图像特。要求:1、不能损坏图像轮廓及边缘 ;2、图像视觉效果应当更好。

     

    滤波和模糊的区别:拿高斯滤波来举例:滤波一般可以分为高通滤波和低通滤波,对于高斯低通滤波就会产生模糊效果,如果对于高斯高通滤波就会产生锐化的效果。所以通常是:高斯滤波就是指使用高斯函数进行滤波;高斯模糊就是指低通滤波。

    高通:边缘增强、边缘提取 ;低通:钝化图像、去除噪音 ;带通:删除特定频率、增强中很少用

    2.1.线性滤波器:在图像处理中,对邻域中的像素的计算为线性运算时,如利用窗口函数进行平滑加权求和的运算,或者某种卷积运算,都可以称为线性滤波。常见的线性滤波有:均值滤波、高斯滤波、盒子滤波、拉普拉斯滤波等等,通常线性滤波器之间只是模版系数不同。

    均值滤波(normalized box filter):用其像素点周围像素的平均值代替元像素值,在滤除噪声的同时也会滤掉图像的边缘信息。在OpenCV中,可以使用boxFilter和blur函数进行均值滤波。均值滤波的核为

     

    高斯滤波(Gaussian filter):高斯滤波为最常用的滤波器,具有可分离性质,可以把二维高斯运算转换为一维高斯运算,其本质上为一个低通滤波器。在OpenCV中可通过函数GaussianBlur进行操作。

     

    2.2. 非线性滤波:非线性滤波利用原始图像跟模版之间的一种逻辑关系得到结果,如最值滤波器,中值滤波器。比较常用的有中值滤波器和双边滤波器。

    中值滤波(median filter):中值滤波用测试像素周围邻域像素集中的中值代替原像素。中值滤波去除椒盐噪声和斑块噪声时,效果非常明显。在OpenCV中,可以使用函数medianBlur进行操作。

     

    双边滤波(bilateral filter):双边滤波在平滑图像时能够很好的保留边缘特性,但是其运算速度比较慢。在OpenCV中,可以使用函数bilateralFilter进行操作。

    w(x,y)为加权系数,取决于定义域核和值域核的乘积。

    3边缘检测:Edge Detection 我们要找水平的边缘:需要注意的是,这里矩阵的元素和是0,所以滤波后的图像会很暗,只有边缘的地方是有亮度的。边缘是图像中灰度发生急剧变化的区域边界。图像灰度的变化情况可以用图像灰度分布的梯度来表示,数字图像中求导是利用差分近似微分来进行的,实际上常用空域微分算子通过卷积来完成。

    一般图像边缘检测方法主要有如下四个步骤:

    1)图像滤波:传统边缘检测算法主要是基于图像强度的一阶和二阶导数,但导数的计算对噪声很敏感,因此必须使用滤波器来改善与噪声有关的边缘检测器的性能。需要指出的是,大多数滤波器在降低噪声的同时也造成了了边缘强度的损失,因此,在增强边缘和降低噪声之间需要一个折衷的选择。

    2)图像增强:增强边缘的基础是确定图像各点邻域强度的变化值。增强算法可以将邻域(或局部)强度值有显著变化的点突显出来。边缘增强一般是通过计算梯度的幅值来完成的。

    3)图像检测:在图像中有许多点的梯度幅值比较大,而这些点在特定的应用领域中并不都是边缘,所以应该用某种方法来确定哪些点是边缘点。最简单的边缘检测判断依据是梯度幅值。

    4)图像定位:如果某一应用场合要求确定边缘位置,则边缘的位置可在子像素分辨率上来估计,边缘的方位也可以被估计出来。近20多年来提出了许多边缘检测算子。

    一阶导数算子

    1)Roberts算子:是一种斜向偏差分的梯度计算方法,梯度的大小代表边缘的强度,梯度的方向与边缘的走向垂直。Roberts操作实际上是求旋转45度两个方向上微分值的和。定位精度高,在水平和垂直方向的效果好,但对噪声敏感。两个卷积核Gx、Gy分别为

                          

    采用1范数衡量梯度的幅度为=如果梯度G大于某一阀值 则认为该点(x,y)为边缘点。

    2)Sobel算子:是一组方向算子,从不同的方向检测边缘。Sobel算子不是简单的求平均再差分,而是加强了中心像素上下左右4个方向像素的权值,运算结果是一副边缘图。Sobel算子通常对灰度渐变和噪声较多的图像处理的比较好。两个卷积核Gx、Gy分别为:

                                   

    采用范数衡量梯度的幅度为如果梯度G大于某一阀值 则认为该点(x,y)为边缘点。

    3)Prewitt算子:是一种边缘样板算子,利用像素点上下左右邻点灰度差,在边缘处达到极值检测边缘,对噪声具有平滑的作用。由于边缘点像素的灰度值与其邻域点的灰度值显著不同,在实际应用中通常采用微分算子和模板匹配的方法检测图像的边缘。Prewitt算子不仅能检测边缘点,而且能抑制噪声的影响,因此对灰度和噪声较多的图像处理得比较好。两个卷积核Gx、Gy分别为:

                         

    采用范数衡量梯度的幅度为:如果梯度G大于某一阀值 则认为该点(x,y)为边缘点。

    二阶导数算子也可以检测边缘,利用二阶导数算子检测阶梯状边缘需将检测算子与图像卷积并确定过零点。

    1)  Laplacian算子:拉普拉斯算子是一种常用的二阶导数算子。实际中可根据二阶导数算子过零点的性质来确定边缘的位置。对于一个连续函数f(x,y),它在位置(x,y)的拉普拉斯值定义如下:

    在图像中,计算函数的拉普拉斯值也可借助各种模板实现。这里对模板的基本要求是对应中心像素的系数应是正的,而对应中心像素邻近像素的系数应是负的,且它们的和应该是零。拉普拉斯算子检测方法常常产生双像素边界,而且这个检测方法对图像中的噪声相当敏感,不能检测边缘的方向,所以很少直接使用拉普拉斯算子进行边缘检测。常用的两种模板分别如图所示:

                       

    2)LOG算法:

    LOG算法步骤如下:1、 取样得到的高斯低通滤波器对输入图像滤波。2、 计算第一步得到图像的拉普拉斯。3、 找到步骤2所得图像的零交叉。

    3)  Canny算子:Canny算子把边缘检测问题转换为检测单位函数极大值的问题来考虑。他利用高斯模型,借助图像滤波的概念指出一个好的边缘检测算子应该具有3个指标:1.低失误率,既要少将真的边缘丢弃,也要少将非边缘判为边缘;2.高位置精度,检测出的边缘应在真正的边界上;3.单像素边缘,即对每个边缘有唯一的响应,得到的边界为单像素宽。

    考虑到上述三个条件,Canny提出了判定边缘检测算子的3个准则:信噪比准则、定位精度准则和单边缘响应准则。

    1. 信噪比准则:信噪比越大,提取的边缘质量越高。信噪比SNR定义为

     

    2.  定位精度准则边缘定位的精度L定义如下

    其中,G’(x)和h’(x)分别是G(x)和h(x)的导数。L越大表明定位精度越高。

    3. 单边缘响应准则:为了保证单边缘只有一个响应。检测算子的脉冲响应导数的零交叉点的平均距离D(f’)应满足

    满足上述三个条件的算子称为Canny算子。Canny边缘检测算法的步骤如下:

    (1) 用高斯滤波器平滑图像;(2)用一阶偏导的有限差分来计算梯度的幅值和方向;(3)对梯度幅值进行非极大值抑制;(排除非边缘像素,仅仅保留细线条)(4)用双阈值算法进行检测和链接边缘。

    Robert:边缘定位精度较高,对于陡峭边缘且噪声低的图像效果较好,但没有进行平滑处理,没有抑制噪声的能力。

    sobel和prewitt:进行了平滑处理,对噪声具有一定抑制能力,但容易出现多像素宽度。精度不高,边缘较粗糙。

    Laplacian:对噪声较为敏感,使噪声能力成分得到加强,容易丢失部分边缘方向信息,造成一些不连续的检测边缘,抗噪声能力较差。

    log:抗噪声能力较强,但会造成一些尖锐的边缘无法检测到。

    canny:最优化思想的边缘检测算子,同时采用高斯函数对图像进行平滑处理,但会造成将高频边缘平滑掉,造成边缘丢失,采用双阈值算法检测和连接边缘。

     

    4.形态学:在特殊领域运算形式——结构元素(Sturcture Element),在每个像素位置上与二值图像对应的区域进行特定的逻辑运算。运算结构是输出图像的相应像素。运算效果取决于结构元素大小内容以及逻辑运算性质。形态学,即数学形态学(mathematical Morphology),是图像处理中应用最为广泛的技术之一,主要用于从图像中提取对表达和描绘区域形状有意义的图像分量,使后续的识别工作能够抓住目标对象最为本质〈最具区分能力-most discriminative)的形状特征,如边界和连通区域等。同时像细化、像素化和修剪毛刺等技术也常应用于图像的预处理和后处理中,成为图像增强技术的有力补充。

    膨胀、腐蚀、开、闭运算是数学形态学最基本的变换。

    结构元素:简单地定义为像素的结构(形状)以及一个原点(又称为锚点),使用形态学滤波涉及对图像的每个像素应用这个结构元素,当结构元素的原点与给定的像素对齐时,它与图像相交部分定义了一组进行形态学运算的像素。原则上,结构元素可以是任何形状,但通常使用简单的形状,比如方形、圆形和菱形,而原点位于中心位置(基于效率的考虑)。设有两幅图像A, S。若A是被处理的对象, 而S是用来处理A的, 则称S为结构元素。结构元素通常都是一些比较小的图像, A与S的关系类似于滤波中图像和模板的关系.

    腐蚀和膨胀两个滤波操作也运算在每个像素周围像素集合上(邻域),这是由结构元素定义的。当应用到一个给定的像素时,结构元素的锚点与该像素的位置对齐,而所有与他相交的像素都被包括在当前像素集合中。腐蚀替换当前像素为像素集合中找到的最小的像素值,而膨胀则替换为像素集合中找到的最大像素值。当然,对于二值图像,每个像素只能被替换为白色像素或黑色像素

    腐蚀和膨胀的主要功能:1)消除噪声(2)分割出独立的图像元素,在图像中连接相邻的元素(3)寻找图像中的极大值或者极小值区域(4)求出图像的梯度。

    4.1、膨胀(dilate):膨胀就是求局部最大值的操作。从数学角度来说,就是将图像与核进行卷积,计算核B覆盖区域的像素点的最大值,并把这个最大值赋值给参考点指定的元素。这样就会使图像中的高亮区域逐渐增长。模板和输入图像对应位置的元素只要有一个与的结果不为0,则结果不为0.给图像中的对象边界添加元素。用3x3的结构元素,扫描二值图像中的每一个像素,用结构元素与其覆盖的二值图像做与运算,如果都为0,则结果图像中值为0,否则为1。结果:输入图像中的前景对象扩大一圈。

    膨胀的作用和腐蚀相反, 膨胀能使物体边界扩大, 具体的膨胀结果与图像本身和结构元素的形状有关。膨胀常用于将图像中原本断裂开来的同一物体桥接起来, 对图像进行二值化之后, 很容易使一个连通的物体断裂为两个部分, 而这会给后续的图像分析(如要基于连通区域的分析统计物体的个数〉造成困扰,此时就可借助膨胀桥接断裂的缝隙

    4.2、腐蚀(erode):腐蚀和膨胀是相反的操作,腐蚀是求局部最小值的操作。腐蚀操作会使图像中的高亮区逐渐减小。模板和输入图像中对应位置的元素相与的结果全不为0时,结果才为0。删除对象边界的某些像素。用3x3的结构元素,扫描二值图像的每一个像素,用结构元素与其覆盖的二值图像做与运算,如果都为1,则结果图像中值为1,否则为0.结果:前景对象减小一圈。

    随着腐蚀结构元素的逐步增大,小于结构元素的物体相继消失。由于腐蚀运算具有上述的特点,可以用于滤波。选择适当大小和形状的结构元素,可以滤除掉所有不能 完全包含结构元素的噪声点。然而,利用腐蚀滤除噪声有一个缺点,即在去除噪声点的同时,对图像中前景物体的形状也会有影响,但当我们只关心物体的位置或者个数时,则影响不大。

    4.3、开运算:开运算是先腐蚀后膨胀。主要用于消除小物体,在纤细点处分离物体,并且在平滑较大物体的边界的同时不明显改变其面积,同时抑制比结构元小的亮细节。

    4.4、闭运算:是先膨胀后腐蚀。用来填充物体内细小空洞、连接邻近物体、平滑其边界的同时并不明显改变其面积,同时抑制比结构元小的暗细节。

    4.5、形态学梯度:就是将膨胀图和腐蚀图相减。对二值化图像进行这一操作可以将边缘突出来,可以使用形态学梯度来保留物体的边缘轮廓。

    4.6、顶帽变换:就是用源图像减去开运算图像。因为开运算带来的结果是放大了裂缝或者局部低亮度的区域。因此,从原图中减去开运算后的图,得到的效果图突出了比原图轮廓周围区域更明亮的区域。顶帽一般用于校正不均匀光照的影响(补充:均匀光照在从背景中提取目标的处理中扮演核心的角色)。

    4.7、黑帽变换:就是用闭运算减去源图像。黑帽运算后的效果图突出了比原图轮廓周围的区域更暗的区域。黑帽运算一般用来分离比邻近点暗一些的斑块。

    4.8、为什么开运算可以去除目标外的孤立点?

    目标外的孤立点是和目标像素值一样的点,而非背景像素点,即为1而非0(0表示选取的空洞或背景像素值)。

    使用腐蚀,背景扩展,该孤立点被腐蚀掉,但是腐蚀会导致目标区域缩小一圈,因此需要再进行膨胀操作,将目标区域扩展回原来大小。所以,要使用开运算去除目标外的孤立点。

    4.9、为什么闭运算可以去除目标内的孔?

    目标内的孔,属于周围都是值为1,内部空洞值为0.目的是去除周围都是1的像素中间的0值。

    闭运算首先进行膨胀操作,目标区域扩张一圈,将目标区域的0去除,但是目标区域同时也会向外扩张一圈,因此需要使用腐蚀操作,使得图像中的目标区域恢复到之前的大小。

     

    5、漫水填充:将与种子点相连的像素相近的连通域替换成指定颜色。如果存在mask,不会填充mask的非零像素。比如边缘检测输出图像可作为mask图,操作的结果总是某个连续的区域。

    作用:1、标记或分离目标区域;2、获取掩码区域,只处理掩码指定的像素点,加速处理过程。

     

    6、图像金字塔:是图像中多尺度表达的一种,最主要用于图像分割,是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔式一系列以金字塔形状排列的,分辨率逐步降低且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到到达某个终止条件才停止采样。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。层级越高图像越小,分辨率越低。

     通常有两种类型的图像金字塔,分别是:

    1)数字金字塔(Gaussuan pyramin)-用来向下采样,主要的图像金字塔,主要用来向下采样图像

    2)拉普拉斯金字塔(Laplaican pyramid)-用来从金字塔底层图像重建上层未采样的还原,在数字图像处理中也即是预测残差,可以对图像进行最大程度的还原,配合高斯金字塔一起使用,是从金字塔底层图像中向上采样,重建一个图像。

    要从金字塔的第i层生成第i+1层(将第i层表示为Gi),先要用高斯核对Gi进行卷积,然后删除所有偶数行和列,新得到的图像面积会变为源图像的1/4.按上述过程对输入图像G0执行操作就可以得到整个金字塔。

    当图像金字塔的上层移动时,尺寸和分辨率会降低。在OpenCV中,从金字塔上一层图像生成下一级图像时可以使用PryDown,而通过PryUp将现有的图像在每个维度上放大两倍。

    注意:PryDown和PryUp函数互逆的,PryUp不是降采样的逆操作。图像首先在每个维度上扩大为原来的两倍,新增的行(偶数行)以0填充,然后给指定的滤波器进行卷积(实际上是在每个维度都扩大为原来两倍的过滤器)去估计“丢失”像素的近似值。

    6.1.高斯金字塔

    高斯金字塔是通过高斯平滑和亚采样获得一些采样图像,即是第K层高斯金字塔通过平滑、亚采样就可以获得第K+1层高斯图像。高斯金字塔包括一些列的低通滤波器,其截止频率从上一层到下一层以因子2逐渐增加,所以高斯金字塔可以跨越很大的频率范围。

         a.对图像向下采样

        为了获得第G(i+1)的金字塔图像,采取如下方法:

             (1)对图像G(i)进行高斯内核卷积

             (2)将所有偶数列和偶数行去除

      得到的图像即为G(i+1)的图像,很明显G(i+1)只有源图像的四分之一,通过对输入图像G(i)(原始图像)不停的迭代上述步骤就会得到整个金字塔,即向下采样会丢失图像的信息,缩小了图像

         b.对图像的向上采样

    如果想放大图像,则需要通过向上取样操作得到

           (1)将图像在每个方向上扩大为原来的两倍,新增的行和列以0填充

           (2)使用先前同样的内核(乘以4)与放大后的图像卷积,获得“新增像素”的近似值。

    得到的图像即为放大后的图像,但是与源图像想必会发现比较模糊,因为在缩放中已经丢失了一些信息。如果想在缩放过程中减少信息的丢失,这些数据就形成了拉普拉斯金字塔。

    6.2.拉普拉斯金字塔

      i层的拉普拉斯金字塔的数学定义为:

                       L(i) = G(i) -UP(G(i+1))&g

    式中的G(i)表示第i层的图像,UP()操作是将源图像中位置为(x,y)的像素映射到目标图像的(2X+1,2Y+1)位置,即在进行向上取样,&表示卷积,g为5*5的高斯内核.

    使用OpenCV中函数直接进行拉普拉斯运算: L(i) = G(i) -PryUP(G(i+1))

    图像金字塔的一个重要应用就是图像分割

    6.3.尺寸调整:resize()函数

         resize()函数是OpenCV中专门用来调整图像大小的函数

         此函数将源图像精确的转换为指定尺寸的目标图像。如果源图像中设置了ROI(Region Of Internet,感兴趣区域),那么resize()函数会对源图像的ROI区域进行调整图像尺寸的操作,来输出到目标图像中。若目标中已经设置了ROI区域,不难理解resize()函数将会对源图像进行尺寸调整并填充到目标图像的ROI中。

     

    7二值化

    7.1全局二值化:一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个全局的阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。将大于T的像素群的像素值设定为白色(或者黑色),小于T的像素群的像素值设定为黑色(或者白色)。

    全局二值化,在表现图像细节方面存在很大缺陷。为了弥补这个缺陷,出现了局部二值化方法。

    局部二值化的方法就是按照一定的规则将整幅图像划分为N个窗口,对这N个窗口中的每一个窗口再按照一个统一的阈值T将该窗口内的像素划分为两部分,进行二值化处理。

    7.2局部自适应二值化:局部二值化也有一个缺陷。存在于那个统一阈值的选定。这个阈值是没有经过合理的运算得来,一般是取该窗口的平局值。这就导致在每一个窗口内仍然出现的是全局二值化的缺陷。为了解决这个问题,就出现了局部自适应二值化方法。

    局部自适应二值化,该方法就是在局部二值化的基础之上,将阈值的设定更加合理化。该方法的阈值是通过对该窗口像素的平均值E,像素之间的差平方P,像素之间的均方根值Q等各种局部特征,设定一个参数方程进行阈值的计算,例如:T=a*E+b*P+c*Q,其中a,b,c是自由参数。这样得出来的二值化图像就更能表现出二值化图像中的细节。

    根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值。 比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等

     

    8、霍夫变换:霍夫变换是图像处理中用来从图像中分离出具有某种相同特征的几何形状(通常,直线,圆等)的常用方法。经典的霍夫变换常用来检测直线,圆,椭圆等。它是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法。在预先知道区域形状的条件下,利用霍夫变换可以方便地得到边界曲线而将不连续的边缘像素点连接起来。霍夫变换的主要优点是受噪声和曲线间断的影响小。利用霍夫变换还可以直接检测某些已知形状的目标。

     

    9.重映射:把一个图像中一个位置的像素放置到另一个图片指定位置的过程.简单的说就是改变图片的位置(左,右,上,下,颠倒)。

    为了完成映射过程, 有必要获得一些插值为非整数像素坐标,因为源图像与目标图像的像素坐标不是一一对应的.

    10、仿射变换: 仿射变换(Affine Transformation)是空间直角坐标系的变换,从一个二维坐标变换到另一个二维坐标,仿射变换是一个线性变换,他保持了图像的“平行性”和“平直性”,即图像中原来的直线和平行线,变换后仍然保持原来的直线和平行线,仿射变换比较常用的特殊变换有平移(Translation)、缩放(Scale)、翻转(Flip)、旋转(Rotation)和剪切(Shear)。

     

    11、图像匹配:目前图像匹配中,局部特征匹配占据了绝大部分,常用的局部特征匹配方法有Harris、SIFT、SURF、ORB等等,不同的特征点检测和匹配方法尤其独特的优势和不足;

    特征点匹配经过Ransac算法优化后仍存在错误匹配点对,需要优化后的匹配结果进行量化评价;

    特征点检测和匹配评价一般包括两个部分,分别为检测和匹配的评价。

    1.  特征检测(feature detection)、特征提取(extraction)和匹配(matching) 这三步,可以看做是目标检测、图像配准和拼接等工作的非常重要的一步。

    2.  特征检测、特征选择、特征提取、特征描述和特征匹配

           特征检测: 根据用户的需求在图像中寻找满足定义的特征,包括角点、Blob点和边缘点。检测的结果:有或没有。

           特征选择: 为了选择稳定和可靠的特征,在检测到的特征集合中,需要进一步约束,通过类似于非极大值抑制、对比度阈值约束等条件保留显著特征。选择的结果:特征子集。

           特征提取: 特征选择确定稳定可靠的特征子集后,需要提取特征的位置(Location)、方向(Orientation)和尺度(Scale)信息。方向和尺度信息主要是为支持旋转和尺度变化。

           特征描述: 结合特征(点)邻域信息,使用一定的描述规则来对特征区域进行量化并抽取能代表该特征的描述信息,为了后续的匹配,一般用特征向量(feature vector)表示。

          特征匹配: 对提取到的特征,需要通过使用一定的方法来进一步判断对应的特征是否相同(或近似),对特征向量一般使用欧式距离或最邻近距离比(NNDR)进行判定,满足一定的条件约束,则认为两个特征相近,否则剔除。一般还会通过RANSAC进一步约束剔除误匹配点。   

     

     

     

    展开全文
  • 图像处理与计算机视觉基础,经典以及最近发展

    万次阅读 多人点赞 2014-04-13 23:19:36
    ************************************************************************************************************************************************************************************ ...

    ************************************************************************************************************************************************************************************  

             在这里,我特别声明:本文章的源作者是   杨晓冬  (个人邮箱:xdyang.ustc@gmail.com)。原文的链接是
    http://www.iask.sina.com.cn/u/2252291285/ish。版权归 杨晓冬 朋友所有。

             我非常感谢原作者辛勤地编写本文章,并愿意共享出来。我也希望转载本文的各位朋友,要注明原作者和出处,以尊重原作者!                 

                                                                                                                                                                                           -------------------------------飞信天下

    ***************************************************************************************************************************************************************************************

                           图像处理与计算机视觉基础,经典以及最近发展

                                                                                                                                 By xdyang(杨晓冬xdyang.ustc@gmail.com)

    一、 绪论

    1. 为什么要写这篇文章

           从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,抓住重点来阅读,同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得很一般,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个工作给完善,力求做到尽量全面。


           本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的Introduction和Related work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在参考文献的汪洋大海里。

    2. 图像处理和计算机视觉的分类

    按照当前流行的分类方法,可以分为以下三部分:
    A.图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压      缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。

    B.图像分析:对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。


    C.计算机视觉:对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。


          关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理->低层视觉(low level vision),图像分析->中间层视觉(middle level vision),计算机视觉->高层视觉(high level vision)。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。

    3. 图像处理和计算机视觉开源库以及编程语言选择

           目前在图像处理中有两种最重要的语言:c/c++和matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++和matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。
    至于开源库,个人非常推荐OpenCV,主要有以下原因:
    (1)简单易入手。OpenCV进入OpenCV2.x的时代后,使用起来越来越简单,接口越来越傻瓜化,越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开 始入手了。


    (2)OpenCV有一堆图像处理和计算机视觉的大牛在维护,bug在逐步减少,每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不懂的平台,并提供了对Python的很好的支持。


    (3)在OpenCV上可以尝试各种最新以及成熟的技术,而不需要自己从头去写,比如人脸检测(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征检测,聚类,hough变换等等 。而且它还支持各种机器学习方法(SVM,NN,KNN,决策树,Boosting等),使用起来很简单。


    (4)文档内容丰富,并且给出了很多示例程序。当然也有一些地方文档描述不清楚,不过看看代码就很清楚了。


    (5)完全开源。可以从中间提取出任何需要的算法。


    (6)从学校出来后,除极少数会继续在学术圈里,大部分还是要进入工业界。现在在工 业界,c/c++仍是主流,很多公司都会优先考虑熟悉或者精通OpenCV的。事实上,在学术界,现在OpenCV也大有取代matlab之势。以前的demo或者source code,很多作者都愿意给出matlab版本的,然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本,或者自己集成到OpenCV中去,这样能快速提升自己的影响力。
           如果想在图像处理和计算机视觉界有比较深入的研究,并且以后打算进入这个领域工作的话,建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话,肯定可以找到一份满意的工作。


    4. 本文的特点和结构,以及适合的对象

        在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。

    由于个人精力和视野的关系,有一些我未涉足过的领域不敢斗胆推荐,只是列出了一些引用率比较高的文章,比如摄像机标定和立体视觉。不过将来,由于工作或者其他原因,这些领域也会接触到,我会逐步增减这些领域的文章。尽管如此,仍然会有疏漏,忘见谅。同时文章的挑选也夹带了一些个人的喜好,比如我个人比较喜欢low level方向的,尤其是IJCV和PAMI上面的文章,因此这方面也稍微多点,希望不要引起您的反感。如果有什么意见或者建议,欢迎mail我。文章和资源我都会在我的csdn blog和sina ishare同步更新。此申明:这些论文的版权归作者及其出版商所有,请勿用于商业目的。
    个人blog:       http://blog.csdn.net/dcraw
    新浪iask地址:http://iask.sina.com.cn/u/2252291285/ish?folderid=868438

          本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。



    二、 图像处理与计算机视觉相关的书籍

    1. 数学

          我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研数学的三个组成部分,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学书目了。

    2. 信号处理

        图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

    2.1经典信号处理

    信号与系统(第2版) Alan V.Oppenheim等著 刘树棠译

    离散时间信号处理(第2版) A.V.奥本海姆等著 刘树棠译

    数字信号处理:理论算法与实现 胡广书 (编者)

    2.2随机信号处理

    现代信号处理 张贤达著

    统计信号处理基础:估计与检测理论 Steven M.Kay等著 罗鹏飞等译

    自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

    2.3 小波变换

    信号处理的小波导引:稀疏方法(原书第3版) tephane Malla著, 戴道清等译

    2.4 信息论

    信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译

    3. 模式识别

    Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

    模式识别(英文版)(第4版) 西奥多里德斯著

    Pattern Classification (2nd Edition) Richard O. Duda等著

    Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

    模式识别(第3版) 张学工著

    4. 图像处理与计算机视觉的书籍推荐

    图像处理,分析与机器视觉 第三版 Sonka等著 艾海舟等译

    Image Processing, Analysis and Machine Vision

                    ( 附:这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。)

    数字图像处理 第三版 冈萨雷斯等著

    Digital Image Processing

    (附:数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。)

    计算机视觉:理论与算法 Richard Szeliski著

    Computer Vision: Theory and Algorithm

                    (附:微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和                       Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。
                      http://szeliski.org/Book/
                      Multiple View Geometry in Computer Vision 第二版Harley等著
                     引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到中英文版的电子版。)

    计算机视觉:一种现代方法 DA Forsyth等著

    Computer Vision: A Modern Approach

    MIT的经典教材。虽然已经过去十年了,还是值得一读。期待第二版

    Machine vision: theory, algorithms, practicalities 第三版 Davies著

    (附:为数不多的英国人写的书,偏向于工业应用。)

    数字图像处理 第四版 Pratt著

    Digital Image Processing

    (附:写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。)

    5. 小结

    罗嗦了这么多,实际上就是几个建议:
    (1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。
    (2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
    (3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看



    三、 计算机视觉中的信号处理与模式识别

          从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方便,按照字母顺序排的序。

    1. Boosting

       Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。
    Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与者。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。

    [1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

    [1998] Boosting the margin A new explanation for the effectiveness of voting methods

    [2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection

    [2003] The Boosting Approach to Machine Learning An Overview

    [2004 IJCV] Robust Real-time Face Detection

    2. Clustering

    聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。

    [1989 PAMI] Unsupervised Optimal Fuzzy Clustering

    [1991 PAMI] A validity measure for fuzzy clustering

    [1995 PAMI] On cluster validity for the fuzzy c-means model

    [1998] Some New Indexes of Cluster Validity

    [1999 ACM] Data Clustering A Review

    [1999 JIIS] On Clustering Validation Techniques

    [2001] Estimating the number of clusters in a dataset via the Gap statistic

    [2001 NIPS] On Spectral Clustering

    [2002] A stability based method for discovering structure in clustered data

    [2007] A tutorial on spectral clustering

    3. Compressive Sensing

    最近大红大紫的压缩感知理论。

    [2006 TIT] Compressed Sensing

    [2008 SPM] An Introduction to Compressive Sampling

    [2011 TSP] Structured Compressed Sensing From Theory to Applications

    4. Decision Trees

    对决策树感兴趣的同学这篇文章是非看不可的了。

    [1986] Introduction to Decision Trees

    5. Dynamical Programming

    动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter

    [1990 PAMI] using dynamic programming for solving variational problems in vision

    [Book Chapter] Dynamic Programming

    6. Expectation Maximization

    EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。

    [1977] Maximum likelihood from incomplete data via the EM algorithm

    [1996 SPM] The Expectation-Maximzation Algorithm

    7. Graphical Models

    伯克利的乔丹大师的Graphical Model,可以配合这Bishop的PRML一起看。

    [1999 ML] An Introduction to Variational Methods for Graphical Models

    8. Hidden Markov Model

    HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。

    [1989 ] A tutorial on hidden markov models and selected applications in speech recognition

    [1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

    [2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

    [2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models

    [2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

    Hmm Chinese book.pdf

    9. Independent Component Analysis

    同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。

    [1999] Independent Component Analysis A Tutorial

    [2000 NN] Independent component analysis algorithms and applications

    [2000] Independent Component Analysis Algorithms and Applications

    10. Information Theory

    计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。

    [1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

    [2010] An information theory perspective on computational vision

    11. Kalman Filter

    这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

    [1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

    [1970] Least-squares estimation_from Gauss to Kalman

    [1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

    [2000] The Unscented Kalman Filter for Nonlinear Estimation

    [2001 Siggraph] An Introduction to the Kalman Filter_full

    [2003] A Study of the Kalman Filter applied to Visual Tracking

    12. Pattern Recognition and Machine Learning

    模式识别名气比较大的几篇综述

    [2000 PAMI] Statistical pattern recognition a review

    [2004 CSVT] An Introduction to Biometric Recognition

    [2010 SPM] Machine Learning in Medical Imaging

    13. Principal Component Analysis

    著名的PCA,在特征的表示和特征降维上非常有用。

    [2001 PAMI] PCA versus LDA

    [2001] Nonlinear component analysis as a kernel eigenvalue problem

    [2002] A Tutorial on Principal Component Analysis

    [2009] A Tutorial on Principal Component Analysis

    [2011] Robust Principal Component Analysis

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    14. Random Forest

    随机森林

    [2001 ML] Random Forests

    15. RANSAC

    随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

    [2009 BMVC] Performance Evaluation of RANSAC Family

    16. Singular Value Decomposition

    对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇Book Chapter

    [2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    17. Sparse Representation

    这里主要是Proceeding of IEEE上的几篇文章

    [2009 PAMI] Robust Face Recognition via Sparse Representation

    [2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

    [2010 PIEEE] Dictionaries for Sparse Representation Modeling

    [2010 PIEEE] It's All About the Data

    [2010 PIEEE] Matrix Completion With Noise

    [2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

    [2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

    [2011 SPM] Directionary Learning

    18. Support Vector Machines

    [1998] A Tutorial on Support Vector Machines for Pattern Recognition

    [2004] LIBSVM A Library for Support Vector Machines

    19. Wavelet

    在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。
    说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。

    [1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

    [1996 PAMI] Image Representation using 2D Gabor Wavelet

    [1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS

    [1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

    [2000 TCE] The JPEG2000 still image coding system_ an overview

    [2002 TIP] The curvelet transform for image denoising

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

    [2003 TIP] The finite ridgelet transform for image representation

    [2005 TIP] Sparse Geometric Image Representations With Bandelets

    [2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

    [2010 SPM] The Curvelet Transform



    四、 图像处理与分析

    本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

    1. Bilateral Filter

    Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

    [1998 ICCV] Bilateral Filtering for Gray and Color Images

    [2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

    2. Color

    如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

    [1991 IJCV] Color Indexing

    [2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval

    [2001 PAMI] Color invariance

    [2002 IJCV] Statistical Color Models with Application to Skin Detection

    [2003] A review of RGB color spaces

    [2007 PR]A survey of skin-color modeling and detection methods

    Gamma.pdf

    GammaFAQ.pdf

    3. Compression and Encoding

    个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

    [2005 IEEE] Trends and perspectives in image and video coding

    4. Contrast Enhancement

    对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

    [2002 IJCV] Vision and the Atmosphere

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I

    [2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

    [2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement

    5. Deblur (Restoration)

    图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了可执行文件。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

    [1972] Bayesian-Based Iterative Method of Image Restoration

    [1974] an iterative technique for the rectification of observed distributions

    [1990 IEEE] Iterative methods for image deblurring

    [1996 SPM] Blind Image Deconvolution

    [1997 SPM] Digital image restoration

    [2005] Digital Image Reconstruction - Deblurring and Denoising

    [2006 Siggraph] Removing Camera Shake from a Single Photograph

    [2008 Siggraph] High-quality Motion Deblurring from a Single Image

    [2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

    6. Dehazing and Defog

    严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2这位003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

    [2008 Siggraph] Single Image Dehazing

    [2009 CVPR] Single Image Haze Removal Using Dark Channel Prior

    [2011 PAMI] Single Image Haze Removal Using Dark Channel Prior

    7. Denoising

    图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion

    [1992] Nonlinear total variation based noise removal algorithms

    [1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion

    [1995 TIT] De-noising by soft-thresholding

    [1998 TIP] Orientation diffusions

    [2000 TIP] Adaptive wavelet thresholding for image denoising and compression

    [2000 TIP] Fourth-order partial differential equations for noise removal

    [2001] Denoising through wavelet shrinkage

    [2002 TIP] The Curvelet Transform for Image Denoising

    [2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time

    [2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image

    [2009 TIP] Is Denoising Dead

    8. Edge Detection

    边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

    [1980] theory of edge detection

    [1983 Canny Thesis] find edge

    [1986 PAMI] A Computational Approach to Edge Detection

    [1990 PAMI] Scale-space and edge detection using anisotropic diffusion

    [1991 PAMI] The design and use of steerable filters

    [1995 PR] Multiresolution edge detection techniques

    [1996 TIP] Optimal edge detection in two-dimensional images

    [1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation

    [2003 PAMI] Statistical edge detection_ learning and evaluating edge cues

    [2004 IEEE] Edge Detection Revisited

    [2004 PAMI] Design of steerable filters for feature detection using canny-like criteria

    [2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

    [2011 IVC] Edge and line oriented contour detection State of the art

    9. Graph Cut

    基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

    [2000 PAMI] Normalized cuts and image segmentation

    [2001 PAMI] Fast approximate energy minimization via graph cuts

    [2004 PAMI] What energy functions can be minimized via graph cuts

    10. Hough Transform

    虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

    [1986 CVGIU] A Survey of the Hough Transform

    [1989] A Comparative study of Hough transform methods for circle finding

    [1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization

    [1997 PR] Extraction of line features in a noisy image

    [2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

    11. Image Interpolation

    图像插值,偶尔也用得上。一般来说,双三次也就够了

    [2000 TMI] Interpolation revisited

    12. Image Matting

    也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

    [2008 Fnd] Image and Video Matting A Survey

    [2008 PAMI] A Closed-Form Solution to Natural Image Matting

    [2008 PAMI] Spectral Matting

    13. Image Modeling

    图像的统计模型。这方面有一本专门的著作Natural Image Statistics

    [1994] The statistics of natural images

    [2003 JMIV] On Advances in Statistical Modeling of Natural Images

    [2009 IJCV] Fields of Experts

    [2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures

    14. Image Quality Assessment

    在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

    [2004 TIP] Image quality assessment from error visibility to structural similarity

    [2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality

    15. Image Registration

    图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

    [1992 MIA] Image matching as a diffusion process

    [1992 PAMI] A Method for Registration of 3-D shapes

    [1992] a survey of image registration techniques

    [1998 MIA] A survey of medical image registration

    [2003 IVC] Image registration methods a survey

    [2003 TMI] Mutual-Information-Based Registration of Medical Survey

    [2011 TIP] Hairis registration

    16. Image Retrieval

    图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在商业界,比如淘淘搜。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

    [2000 PAMI] Content-based image retrieval at the end of the early years

    [2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

    [2002] Content-Based Image Retrieval Systems A Survey

    [2008] Content-Based Image Retrieval-Literature Survey

    [2010] Plant Image Retrieval Using Color,Shape and Texture Features

    [2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

    CBIR Chinese

    fundament of cbir

    17. Image Segmentation

    图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

    [2004 IJCV] Efficient Graph-Based Image Segmentation

    [2008 CVIU] Image segmentation evaluation A survey of unsupervised methods

    [2011 PAMI] Contour Detection and Hierarchical Image Segmentation

    18. Level Set

    大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

    [1995 PAMI] Shape modeling with front propagation_ a level set approach

    [2001 JCP] Level Set Methods_ An Overview and Some Recent Results

    [2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking

    [2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation

    [2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors

    [2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation

    19. Pyramid

    其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

    [1983] The Laplacian Pyramid as a Compact Image Code

    20. Radon Transform

    Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

    [1993 PAMI] Image representation via a finite Radon transform

    [1993 TIP] The fast discrete radon transform I theory

    [2007 IVC] Generalised finite radon transform for N×N images

    21. Scale Space

    尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

    [1987] Scale-space filtering

    [1990 PAMI] Scale-Space for Discrete Signals

    [1994] Scale-space theory A basic tool for analysing structures at different scales

    [1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection

    [1998 IJCV] Feature Detection with Automatic Scale Selection

    22. Snake

    活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

    [1987 IJCV] Snakes Active Contour Models

    [1996 ] deformable model in medical image A Survey

    [1997 IJCV] geodesic active contour

    [1998 TIP] Snakes, shapes, and gradient vector flow

    [2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects

    [2001 TIP] Active contours without edges

    23. Super Resolution

    超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

    [2002] Example-Based Super-Resolution

    [2009 ICCV] Super-Resolution from a Single Image

    [2010 TIP] Image Super-Resolution Via Sparse Representation

    24. Thresholding

    阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

    [1979 IEEE] OTSU A threshold selection method from gray-level histograms

    [2001 JISE] A Fast Algorithm for Multilevel Thresholding

    [2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation

    25. Watershed

    分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

    [1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations

    [2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies


    五、 计算机视觉

    这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。

    1. Active Appearance Models

    活动表观模型和活动轮廓模型基本思想来源Snake,现在在人脸三维建模方面得到了很成功的应用,这里列出了三篇最早最经典的文章。对这个领域有兴趣的可以从这三篇文章开始入手。

    [1998 ECCV] Active Appearance Models

    [2001 PAMI] Active Appearance Models

    2. Active Shape Models

    [1995 CVIU]Active Shape Models-Their Training and Application

    3. Background modeling and subtraction

    背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生,demo效果也很好,比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法,他们最大的贡献在于不用EM去做高斯拟合,而是采用了一种迭代的算法,这样就不需要保存很多帧的数据,节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法,把混合高斯模型做到了极致。这种方法效果也很好,而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里,无参数方法(2000 ECCV)和Vibe方法也值得关注。

    [1997 PAMI] Pfinder Real-Time Tracking of the Human Body

    [1999 CVPR] Adaptive background mixture models for real-time tracking

    [1999 ICCV] Wallflower Principles and Practice of Background Maintenance

    [2000 ECCV] Non-parametric Model for Background Subtraction

    [2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking

    [2002 PIEEE] Background and foreground modeling using nonparametric

    kernel density estimation for visual surveillance

    [2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction

    [2004 PAMI] Recursive unsupervised learning of finite mixture models

    [2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction

    [2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences

    4. Bag of Words

    词袋,在这方面暂时没有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。

    [2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos

    [2004 ECCV] Visual Categorization with Bags of Keypoints

    [2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories

    5. BRIEF

    BRIEF是Binary Robust Independent Elementary Features的简称,是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。

    [2010 ECCV] BRIEF Binary Robust Independent Elementary Features

    [2011 ICCV] ORB an efficient alternative to SIFT or SURF

    [2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast

    6. Camera Calibration and Stereo Vision

    非常不熟悉的领域。仅仅列出了十来篇重要的文献,供以后学习。

    [1979 Marr] A Computational Theory of Human Stereo Vision

    [1985] Computational vision and regularization theory

    [1987 IEEE] A versatile camera calibration technique for

    high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses

    [1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision

    [1988 PIEEE] Ill-Posed Problems in Early Vision

    [1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences

    [1990 IJCV] Relative Orientation

    [1990 IJCV] Using vanishing points for camera calibration

    [1992 ECCV] Camera self-calibration Theory and experiments

    [1992 IJCV] A theory of self-calibration of a moving camera

    [1992 PAMI] Camera calibration with distortion models and accuracy evaluation

    [1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis

    [1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment

    [1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations

    [1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system

    [2000 PAMI] A flexible new technique for camera calibration

    7. Color and Histogram Feature

    这里面主要来源于图像检索,早期的图像检测基本基于全局的特征,其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。

    [1995 SPIE] Similarity of color images

    [1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

    [1996] comparing images using color coherence vectors

    [1997 ] Image Indexing Using Color Correlograms

    [2001 TIP] An Efficient Color Representation for Image Retrieval

    [2009 CVIU] Performance evaluation of local colour invariants

    8. Deformable Part Model

    大红大热的DPM,在OpenCV中有一个专门的topic讲DPM和latent svm

    [2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model

    [2010 CVPR] Cascade Object Detection with Deformable Part Models

    [2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models

    9. Distance Transformations

    距离变换,在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。

    [1986 CVGIP] Distance Transformations in Digital Images

    [2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey

    10. Face Detection

    最成熟最有名的当属Haar+Adaboost

    [1998 PAMI] Neural Network-Based Face Detection

    [2002 PAMI] Detecting faces in images a survey

    [2002 PAMI] Face Detection in Color Images

    [2004 IJCV] Robust Real-Time Face Detection

    11. Face Recognition

    不熟悉,简单罗列之。

    [1991] Face Recognition Using Eigenfaces

    [2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art

    [2000] Face Recognition A Literature Survey

    [2006 PR] Face recognition from a single image per person A survey

    [2009 PAMI] Robust Face Recognition via Sparse Representation

    12. FAST

    用机器学习的方法来提取角点,号称很快很好。

    [2006 ECCV] Machine learning for high-speed corner detection

    [2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection

    13. Feature Extraction

    这里的特征主要都是各种不变性特征,SIFT,Harris,MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征,王永明与王贵锦合著的《图像局部不变性特征与描述》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。

    [1989 PAMI] On the detection of dominant points on digital curves

    [1997 IJCV] SUSAN—A New Approach to Low Level Image Processing

    [2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions

    [2004 IJCV] Scale & Affine Invariant Interest Point Detectors

    [2005 PAMI] A performance evaluation of local descriptors

    [2006 IJCV] A Comparison of Affine Region Detectors

    [2007 FAT] Local Invariant Feature Detectors - A Survey

    [2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors

    14. Feature Matching

    Fua课题组在今年PAMI上的一篇文章,感觉还不错

    [2012 PAMI] LDAHash Improved Matching with Smaller Descriptors

    15. Harris

    虽然过去了很多年,Harris角点检测仍然广泛使用,而且基于它有很多变形。如果仔细看了这种方法,从直观也可以感觉到这是一种很稳健的方法。

    [1988 Harris] A combined corner and edge detector

    16. Histograms of Oriented Gradients

    HoG方法也在OpenCV中实现了:HOGDescriptor。

    [2005 CVPR] Histograms of Oriented Gradients for Human Detection

    NavneetDalalThesis.pdf

    17. Image Distance

    [1993 PAMI] Comparing Images Using the Hausdorff Distance

    18. Image Stitching

    图像拼接,另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中,有专门一章是讨论这个问题。这里的两面文章一篇是综述,一篇是这方面很经典的文章。

    [2006 Fnd] Image Alignment and Stitching A Tutorial

    [2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

    19. KLT

    KLT跟踪算法,基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章,最后一篇给出了OpenCV实现KLT的细节。

    [1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version

    [1994 CVPR] Good Features to Track

    [2004 IJCV] Lucas-Kanade 20 Years On A Unifying Framework

    Pyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV

    20. Local Binary Pattern

    LBP。OpenCV的Cascade分类器也支持LBP,用来取代Haar特征。

    [2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns

    [2004 ECCV] Face Recognition with Local Binary Patterns

    [2006 PAMI] Face Description with Local Binary Patterns

    [2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features

    21. Low-Level Vision

    关于Low level vision的两篇很不错的文章

    [1998 TIP] A general framework for low level vision

    [2000 IJCV] Learning Low-Level Vision

    22. Mean Shift

    均值漂移算法,在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上关于Mean Shift的文章,一篇是OpenCV实现的文章。

    [1995 PAMI] Mean shift, mode seeking, and clustering

    [2002 PAMI] Mean shift a robust approach toward feature space analysis

    [2003 CVPR] Mean-shift blob tracking through scale space

    [2009 CVIU] Object tracking using SIFT features and mean shift

    [2012 PAMI] Mean Shift Trackers with Cross-Bin Metrics

    OpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface

    23. MSER

    这篇文章发表在2002年的BMVC上,后来直接录用到2004年的IVC上,内容差不多。MSER在Sonka的书里面也有提到。

    [2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions

    [2003] MSER Author Presentation

    [2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions

    [2011 PAMI] Are MSER Features Really Interesting

    24. Object Detection

    首先要说的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,后来到新加坡国立任教,极具潜力的一个老师。不幸的是,他和他的妻子都在2000年的新加坡空难中遇难,让人唏嘘不已。

    http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006

    最后一篇文章也是Fua课题组的,作者给出的demo效果相当好。

    [1998 PAMI] Example-based learning for view-based human face detection

    [2003 IJCV] Learning the Statistics of People in Images and Video

    [2011 PAMI] Learning to Detect a Salient Object

    [2012 PAMI] A Real-Time Deformable Detector

    25. Object Tracking

    跟踪也是计算机视觉中的经典问题。粒子滤波,卡尔曼滤波,KLT,mean shift,光流都跟它有关系。这里列出的是传统意义上的跟踪,尤其值得一看的是2008的Survey和2003年的Kernel based tracking。

    [2003 PAMI] Kernel-based object tracking

    [2007 PAMI] Tracking People by Learning Their Appearance

    [2008 ACM] Object Tracking A Survey

    [2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments

    [2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition

    [2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning

    [2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects

    26. OCR

    一个非常成熟的领域,已经很好的商业化了。

    [1992 IEEE] Historical review of OCR research and development

    Video OCR A Survey and Practitioner's Guide

    27. Optical Flow

    光流法,视频分析所必需掌握的一种算法。

    [1981 AI] Determine Optical Flow

    [1994 IJCV] Performance of optical flow techniques

    [1995 ACM] The Computation of Optical Flow

    [2004 TR] Tutorial Computing 2D and 3D Optical Flow

    [2005 BOOK] Optical Flow Estimation

    [2008 ECCV] Learning Optical Flow

    [2011 IJCV] A Database and Evaluation Methodology for Optical Flow

    28. Particle Filter

    粒子滤波,主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。

    [1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking

    [2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking

    [2002 TSP] Particle filters for positioning, navigation, and tracking

    [2003 SPM] particle filter

    29. Pedestrian and Human detection

    仍然是综述类,关于行人和人体的运动检测和动作识别。

    [1999 CVIU] Visual analysis of human movement_ A survey

    [2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture

    [2005 TIP] Image change detection algorithms a systematic survey

    [2006 CVIU] a survey of avdances in vision based human motion capture

    [2007 CVIU] Vision-based human motion analysis An overview

    [2007 IJCV] Pedestrian Detection via Periodic Motion Analysis

    [2007 PR] A survey of skin-color modeling and detection methods

    [2010 IVC] A survey on vision-based human action recognition

    [2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art

    30. Scene Classification

    当相机越来越傻瓜化的时候,自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。

    [2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope

    [2001 PAMI] Visual Word Ambiguity

    [2007 PAMI] A Thousand Words in a Scene

    [2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition

    [2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization

    31. Shadow Detection

    [2003 PAMI] Detecting moving shadows-- algorithms and evaluation

    32. Shape

    关于形状,主要是两个方面:形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征,用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别,最牛的当属J Malik等提出的Shape Context。

    [1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION

    [1993 PR] Pattern Recognition by Affine Moment Invariants

    [1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

    [2001 SMI] Shape matching similarity measures and algorithms

    [2002 PAMI] Shape matching and object recognition using shape contexts

    [2004 PR] Review of shape representation and description techniques

    [2006 PAMI] Integral Invariants for Shape Matching

    [2008] A Survey of Shape Feature Extraction Techniques

    33. SIFT

    关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。

    [1999 ICCV] Object recognition from local scale-invariant features

    [2000 IJCV] Evaluation of Interest Point Detectors

    [2003 CVIU] Speeded-Up Robust Features (SURF)

    [2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

    [2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

    [2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

    [2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

    34. SLAM

    Simultaneous Localization and Mapping, 同步定位与建图。
    SLAM问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。

    [2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision

    [2007 PAMI] MonoSLAM Real-Time Single Camera SLAM

    35. Texture Feature

    纹理特征也是物体识别和检索的一个重要特征集。

    [1973] Textural features for image classification

    [1979 ] Statistical and structural approaches to texture

    [1996 PAMI] Texture features for browsing and retrieval of image data

    [2002 PR] Brief review of invariant texture analysis methods

    [2012 TIP] Color Local Texture Features for Color Face Recognition

    36. TLD

    Kadal创立了TLD,跟踪学习检测同步进行,达到稳健跟踪的目的。他的两个导师也是大名鼎鼎,一个是发明MSER的Matas,一个是Mikolajczyk。他还创立了一个公司TLD Vision s.r.o. 这里给出了他的系列文章,最后一篇是刚出来的PAMI。

    [2009] Online learning of robust object detectors during unstable tracking

    [2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints

    [2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES

    [2012 PAMI] Tracking-Learning-Detection

    37. Video Surveillance

    前两篇是两个很有名的视频监控系统,里面包含了很丰富的信息量,比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。

    [2000 CMU TR] A System for Video Surveillance and Monitoring

    [2000 PAMI] W4-- real-time surveillance of people and their activities

    [2008 MVA] The evolution of video surveillance an overview

    38. Viola-Jones

     Haar+Adaboost的弱弱联手,组成了最强大的利器。在OpenCV里面有它的实现,也可以选择用LBP来代替Haar特征。

    [2001 CVPR] Rapid object detection using a boosted cascade of simple features

    [2004 IJCV] Robust Real-time Face Detection

    六、 结束语


    历时一个多月,终于用业余时间把这些资料整理出来了,总算了却了一块心病,也不至于再看着一堆资料发愁了。以后可能会有些小修小补,但不会有太大的变化了。万里长征走完了第一步,剩下的就是理解和消化了。借新浪ishare共享出来,希望能够对你的科研也有一定的帮助。最后简单统计一下各个年份出现的频率。

    文章总数:372

    2012年: 10

    2011年: 20

    2010年: 20

    2009年: 14

    2008年: 18

    2007年: 13

    2006年: 14

    2005年: 9

    2004年: 24

    2003年: 22

    2002年: 21

    2001年: 21

    2000年: 23

    1999年: 10

    1998年: 22

    1997年: 8

    1996年: 9

    1995年: 9

    1994年: 7

    1993年: 5

    1992年: 11

    1991年: 5

    1990年: 6

    1980-1989: 22

    1960-1979: 9

    展开全文
  • 虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章...

    原作者博客主页:http://blog.csdn.net/dcraw  



    一、 绪论

    1. 为什么要写这篇文章

           从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多文献,何不整理出其中的经典,抓住重点来阅读,同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看,那个文档写得很一般,所共享的论文也非常之有限。就算如此,还是得到了一些网友的夸奖,心里感激不尽。因此,一直想下定决心把这个工作给完善,力求做到尽量全面。


           本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法,在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多,不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法,同时他们的Introduction和Related work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域,比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来,不用迷失在参考文献的汪洋大海里。

    2. 图像处理和计算机视觉的分类

    按照当前流行的分类方法,可以分为以下三部分:
    A.图像处理:对输入的图像做某种变换,输出仍然是图像,基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换,图像增强,图像去噪,图像压      缩,图像恢复,二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。

    B.图像分析:对图像的内容进行分析,提取有意义的特征,以便于后续的处理。处理的仍然是单幅图像。


    C.计算机视觉:对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像,当然也包括部分单幅图像。


          关于图像处理,图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说,图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识,比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析,只是不会介绍的太详细。其实图像处理,图像分析和计算机视觉都可以纳入到计算机视觉的范畴:图像处理->低层视觉(low level vision),图像分析->中间层视觉(middle level vision),计算机视觉->高层视觉(high level vision)。这是一般的计算机视觉或者机器视觉的划分方法。在本文中,仍然按照传统的方法把这个领域划分为图像处理,图像分析和计算机视觉。

    3. 图像处理和计算机视觉开源库以及编程语言选择

           目前在图像处理中有两种最重要的语言:c/c++和matlab。它们各有优点:c/c++比较适合大型的工程,效率较高,而且容易转成硬件语言,是工业界的默认语言之一。而matlab实现起来比较方便,适用于算法的快速验证,而且matlab有成熟的工具箱可以使用,比如图像处理工具箱,信号处理工具箱。它们有一个共同的特点:开源的资源非常多。在学术界matlab使用的非常多,很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善,c/c++在图像处理中的作用越来越大。总的来说,c/c++和matlab都必须掌握,最好是精通,当然侧重在c/c++上对找工作会有很大帮助。
    至于开源库,个人非常推荐OpenCV,主要有以下原因:
    (1)简单易入手。OpenCV进入OpenCV2.x的时代后,使用起来越来越简单,接口越来越傻瓜化,越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开 始入手了。


    (2)OpenCV有一堆图像处理和计算机视觉的大牛在维护,bug在逐步减少,每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不懂的平台,并提供了对Python的很好的支持。


    (3)在opencv上可以尝试各种最新以及成熟的技术,而不需要自己从头去写,比如人脸检测(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征检测,聚类,hough变换等等 。而且它还支持各种机器学习方法(SVM,NN,KNN,决策树,Boosting等),使用起来很简单。


    (4)文档内容丰富,并且给出了很多示例程序。当然也有一些地方文档描述不清楚,不过看看代码就很清楚了。


    (5)完全开源。可以从中间提取出任何需要的算法。


    (6)从学校出来后,除极少数会继续在学术圈里,大部分还是要进入工业界。现在在工 业界,c/c++仍是主流,很多公司都会优先考虑熟悉或者精通OpenCV的。事实上,在学术界,现在OpenCV也大有取代matlab之势。以前的demo或者source code,很多作者都愿意给出matlab版本的,然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本,或者自己集成到OpenCV中去,这样能快速提升自己的影响力。
           如果想在图像处理和计算机视觉界有比较深入的研究,并且以后打算进入这个领域工作的话,建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话,肯定可以找到一份满意的工作。


    4. 本文的特点和结构,以及适合的对象

        在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋,可以在阅读书籍的同时参阅这些文献,能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广,如果能对计算机视觉的资深从业者也有一定的帮助,我将倍感欣慰。为了不至太误人子弟,每一篇文章都或多或少的看了一下,最不济也看了摘要(这句话实在整理之前写的,实际上由于精力有限,好多文献都只是大概扫了一眼,然后看了看google的引用数,一般在1000以上就放上来了,把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中,我本人也受益匪浅,希望能对大家也有所帮助。

    由于个人精力和视野的关系,有一些我未涉足过的领域不敢斗胆推荐,只是列出了一些引用率比较高的文章,比如摄像机标定和立体视觉。不过将来,由于工作或者其他原因,这些领域也会接触到,我会逐步增减这些领域的文章。尽管如此,仍然会有疏漏,忘见谅。同时文章的挑选也夹带了一些个人的喜好,比如我个人比较喜欢low level方向的,尤其是IJCV和PAMI上面的文章,因此这方面也稍微多点,希望不要引起您的反感。如果有什么意见或者建议,欢迎mail我。文章和资源我都会在我的csdn blog和sina ishare同步更新。此申明:这些论文的版权归作者及其出版商所有,请勿用于商业目的。
    个人blog:       http://blog.csdn.NET/dcraw
    新浪iask地址:http://iask.sina.com.cn/u/2252291285/ish?folderid=868438

          本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础,主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了,第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。



    二、 图像处理与计算机视觉相关的书籍

    1. 数学

          我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研数学的三个组成部分,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学书目了。

    2. 信号处理

        图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

    2.1经典信号处理

    信号与系统(第2版) Alan V.Oppenheim等著 刘树棠译

    离散时间信号处理(第2版) A.V.奥本海姆等著 刘树棠译

    数字信号处理:理论算法与实现 胡广书 (编者)

    2.2随机信号处理

    现代信号处理 张贤达著

    统计信号处理基础:估计与检测理论 Steven M.Kay等著 罗鹏飞等译

    自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

    2.3 小波变换

    信号处理的小波导引:稀疏方法(原书第3版) tephane Malla著, 戴道清等译

    2.4 信息论

    信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译

    3. 模式识别

    Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

    模式识别(英文版)(第4版) 西奥多里德斯著

    Pattern Classification (2nd Edition) Richard O. Duda等著

    Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

    模式识别(第3版) 张学工著

    4. 图像处理与计算机视觉的书籍推荐

    图像处理,分析与机器视觉 第三版 Sonka等著 艾海舟等译

    Image Processing, Analysis and Machine Vision

                    ( 附:这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。)

    数字图像处理 第三版 冈萨雷斯等著

    Digital Image Processing

    (附:数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。)

    计算机视觉:理论与算法 Richard Szeliski著

    Computer Vision: Theory and Algorithm

                    (附:微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和                       Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。
                      http://szeliski.org/Book/
                      Multiple View Geometry in Computer Vision 第二版Harley等著
                     引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到中英文版的电子版。)

    计算机视觉:一种现代方法 DA Forsyth等著

    Computer Vision: A Modern Approach

    MIT的经典教材。虽然已经过去十年了,还是值得一读。期待第二版

    Machine vision: theory, algorithms, practicalities 第三版 Davies著

    (附:为数不多的英国人写的书,偏向于工业应用。)

    数字图像处理 第四版 Pratt著

    Digital Image Processing

    (附:写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。)

    5. 小结

    罗嗦了这么多,实际上就是几个建议:
    (1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。
    (2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
    (3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看



    三、 计算机视觉中的信号处理与模式识别

          从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方便,按照字母顺序排的序。

    1. Boosting

       Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。
    Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与者。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。

    [1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

    [1998] Boosting the margin A new explanation for the effectiveness of voting methods

    [2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection

    [2003] The Boosting Approach to Machine Learning An Overview

    [2004 IJCV] Robust Real-time Face Detection

    2. Clustering

    聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。

    [1989 PAMI] Unsupervised Optimal Fuzzy Clustering

    [1991 PAMI] A validity measure for fuzzy clustering

    [1995 PAMI] On cluster validity for the fuzzy c-means model

    [1998] Some New Indexes of Cluster Validity

    [1999 ACM] Data Clustering A Review

    [1999 JIIS] On Clustering Validation Techniques

    [2001] Estimating the number of clusters in a dataset via the Gap statistic

    [2001 NIPS] On Spectral Clustering

    [2002] A stability based method for discovering structure in clustered data

    [2007] A tutorial on spectral clustering

    3. Compressive Sensing

    最近大红大紫的压缩感知理论。

    [2006 TIT] Compressed Sensing

    [2008 SPM] An Introduction to Compressive Sampling

    [2011 TSP] Structured Compressed Sensing From Theory to Applications

    4. Decision Trees

    对决策树感兴趣的同学这篇文章是非看不可的了。

    [1986] Introduction to Decision Trees

    5. Dynamical Programming

    动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter

    [1990 PAMI] using dynamic programming for solving variational problems in vision

    [Book Chapter] Dynamic Programming

    6. Expectation Maximization

    EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。

    [1977] Maximum likelihood from incomplete data via the EM algorithm

    [1996 SPM] The Expectation-Maximzation Algorithm

    7. Graphical Models

    伯克利的乔丹大师的Graphical Model,可以配合这Bishop的PRML一起看。

    [1999 ML] An Introduction to Variational Methods for Graphical Models

    8. Hidden Markov Model

    HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。

    [1989 ] A tutorial on hidden markov models and selected applications in speech recognition

    [1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

    [2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

    [2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models

    [2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

    Hmm Chinese book.pdf

    9. Independent Component Analysis

    同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。

    [1999] Independent Component Analysis A Tutorial

    [2000 NN] Independent component analysis algorithms and applications

    [2000] Independent Component Analysis Algorithms and Applications

    10. Information Theory

    计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。

    [1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

    [2010] An information theory perspective on computational vision

    11. Kalman Filter

    这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

    [1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

    [1970] Least-squares estimation_from Gauss to Kalman

    [1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

    [2000] The Unscented Kalman Filter for Nonlinear Estimation

    [2001 Siggraph] An Introduction to the Kalman Filter_full

    [2003] A Study of the Kalman Filter applied to Visual Tracking

    12. Pattern Recognition and Machine Learning

    模式识别名气比较大的几篇综述

    [2000 PAMI] Statistical pattern recognition a review

    [2004 CSVT] An Introduction to Biometric Recognition

    [2010 SPM] Machine Learning in Medical Imaging

    13. Principal Component Analysis

    著名的PCA,在特征的表示和特征降维上非常有用。

    [2001 PAMI] PCA versus LDA

    [2001] Nonlinear component analysis as a kernel eigenvalue problem

    [2002] A Tutorial on Principal Component Analysis

    [2009] A Tutorial on Principal Component Analysis

    [2011] Robust Principal Component Analysis

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    14. Random Forest

    随机森林

    [2001 ML] Random Forests

    15. RANSAC

    随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

    [2009 BMVC] Performance Evaluation of RANSAC Family

    16. Singular Value Decomposition

    对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇Book Chapter

    [2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis

    17. Sparse Representation

    这里主要是Proceeding of IEEE上的几篇文章

    [2009 PAMI] Robust Face Recognition via Sparse Representation

    [2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

    [2010 PIEEE] Dictionaries for Sparse Representation Modeling

    [2010 PIEEE] It's All About the Data

    [2010 PIEEE] Matrix Completion With Noise

    [2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

    [2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

    [2011 SPM] Directionary Learning

    18. Support Vector Machines

    [1998] A Tutorial on Support Vector Machines for Pattern Recognition

    [2004] LIBSVM A Library for Support Vector Machines

    19. Wavelet

    在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。
    说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。

    [1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

    [1996 PAMI] Image Representation using 2D Gabor Wavelet

    [1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS

    [1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

    [2000 TCE] The JPEG2000 still image coding system_ an overview

    [2002 TIP] The curvelet transform for image denoising

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

    [2003 TIP] The finite ridgelet transform for image representation

    [2005 TIP] Sparse Geometric Image Representations With Bandelets

    [2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

    [2010 SPM] The Curvelet Transform



    四、 图像处理与分析

    本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

    1. Bilateral Filter

    Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

    [1998 ICCV] Bilateral Filtering for Gray and Color Images

    [2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

    2. Color

    如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

    [1991 IJCV] Color Indexing

    [2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval

    [2001 PAMI] Color invariance

    [2002 IJCV] Statistical Color Models with Application to Skin Detection

    [2003] A review of RGB color spaces

    [2007 PR]A survey of skin-color modeling and detection methods

    Gamma.pdf

    GammaFAQ.pdf

    3. Compression and Encoding

    个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

    [2005 IEEE] Trends and perspectives in image and video coding

    4. Contrast Enhancement

    对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

    [2002 IJCV] Vision and the Atmosphere

    [2003 TIP] Gray and color image contrast enhancement by the curvelet transform

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II

    [2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I

    [2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

    [2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement

    5. Deblur (Restoration)

    图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了可执行文件。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

    [1972] Bayesian-Based Iterative Method of Image Restoration

    [1974] an iterative technique for the rectification of observed distributions

    [1990 IEEE] Iterative methods for image deblurring

    [1996 SPM] Blind Image Deconvolution

    [1997 SPM] Digital image restoration

    [2005] Digital Image Reconstruction - Deblurring and Denoising

    [2006 Siggraph] Removing Camera Shake from a Single Photograph

    [2008 Siggraph] High-quality Motion Deblurring from a Single Image

    [2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

    6. Dehazing and Defog

    严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2这位003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

    [2008 Siggraph] Single Image Dehazing

    [2009 CVPR] Single Image Haze Removal Using Dark Channel Prior

    [2011 PAMI] Single Image Haze Removal Using Dark Channel Prior

    7. Denoising

    图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II

    [1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion

    [1992] Nonlinear total variation based noise removal algorithms

    [1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion

    [1995 TIT] De-noising by soft-thresholding

    [1998 TIP] Orientation diffusions

    [2000 TIP] Adaptive wavelet thresholding for image denoising and compression

    [2000 TIP] Fourth-order partial differential equations for noise removal

    [2001] Denoising through wavelet shrinkage

    [2002 TIP] The Curvelet Transform for Image Denoising

    [2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time

    [2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image

    [2009 TIP] Is Denoising Dead

    8. Edge Detection

    边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

    [1980] theory of edge detection

    [1983 Canny Thesis] find edge

    [1986 PAMI] A Computational Approach to Edge Detection

    [1990 PAMI] Scale-space and edge detection using anisotropic diffusion

    [1991 PAMI] The design and use of steerable filters

    [1995 PR] Multiresolution edge detection techniques

    [1996 TIP] Optimal edge detection in two-dimensional images

    [1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation

    [2003 PAMI] Statistical edge detection_ learning and evaluating edge cues

    [2004 IEEE] Edge Detection Revisited

    [2004 PAMI] Design of steerable filters for feature detection using canny-like criteria

    [2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

    [2011 IVC] Edge and line oriented contour detection State of the art

    9. Graph Cut

    基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

    [2000 PAMI] Normalized cuts and image segmentation

    [2001 PAMI] Fast approximate energy minimization via graph cuts

    [2004 PAMI] What energy functions can be minimized via graph cuts

    10. Hough Transform

    虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

    [1986 CVGIU] A Survey of the Hough Transform

    [1989] A Comparative study of Hough transform methods for circle finding

    [1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization

    [1997 PR] Extraction of line features in a noisy image

    [2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

    11. Image Interpolation

    图像插值,偶尔也用得上。一般来说,双三次也就够了

    [2000 TMI] Interpolation revisited

    12. Image Matting

    也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

    [2008 Fnd] Image and Video Matting A Survey

    [2008 PAMI] A Closed-Form Solution to Natural Image Matting

    [2008 PAMI] Spectral Matting

    13. Image Modeling

    图像的统计模型。这方面有一本专门的著作Natural Image Statistics

    [1994] The statistics of natural images

    [2003 JMIV] On Advances in Statistical Modeling of Natural Images

    [2009 IJCV] Fields of Experts

    [2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures

    14. Image Quality Assessment

    在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

    [2004 TIP] Image quality assessment from error visibility to structural similarity

    [2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality

    15. Image Registration

    图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

    [1992 MIA] Image matching as a diffusion process

    [1992 PAMI] A Method for Registration of 3-D shapes

    [1992] a survey of image registration techniques

    [1998 MIA] A survey of medical image registration

    [2003 IVC] Image registration methods a survey

    [2003 TMI] Mutual-Information-Based Registration of Medical Survey

    [2011 TIP] Hairis registration

    16. Image Retrieval

    图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在商业界,比如淘淘搜。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

    [2000 PAMI] Content-based image retrieval at the end of the early years

    [2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval

    [2002] Content-Based Image Retrieval Systems A Survey

    [2008] Content-Based Image Retrieval-Literature Survey

    [2010] Plant Image Retrieval Using Color,Shape and Texture Features

    [2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

    CBIR Chinese

    fundament of cbir

    17. Image Segmentation

    图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

    [2004 IJCV] Efficient Graph-Based Image Segmentation

    [2008 CVIU] Image segmentation evaluation A survey of unsupervised methods

    [2011 PAMI] Contour Detection and Hierarchical Image Segmentation

    18. Level Set

    大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

    [1995 PAMI] Shape modeling with front propagation_ a level set approach

    [2001 JCP] Level Set Methods_ An Overview and Some Recent Results

    [2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking

    [2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation

    [2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors

    [2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation

    19. Pyramid

    其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

    [1983] The Laplacian Pyramid as a Compact Image Code

    20. Radon Transform

    Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

    [1993 PAMI] Image representation via a finite Radon transform

    [1993 TIP] The fast discrete radon transform I theory

    [2007 IVC] Generalised finite radon transform for N×N images

    21. Scale Space

    尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

    [1987] Scale-space filtering

    [1990 PAMI] Scale-Space for Discrete Signals

    [1994] Scale-space theory A basic tool for analysing structures at different scales

    [1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection

    [1998 IJCV] Feature Detection with Automatic Scale Selection

    22. Snake

    活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

    [1987 IJCV] Snakes Active Contour Models

    [1996 ] deformable model in medical image A Survey

    [1997 IJCV] geodesic active contour

    [1998 TIP] Snakes, shapes, and gradient vector flow

    [2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects

    [2001 TIP] Active contours without edges

    23. Super Resolution

    超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

    [2002] Example-Based Super-Resolution

    [2009 ICCV] Super-Resolution from a Single Image

    [2010 TIP] Image Super-Resolution Via Sparse Representation

    24. Thresholding

    阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

    [1979 IEEE] OTSU A threshold selection method from gray-level histograms

    [2001 JISE] A Fast Algorithm for Multilevel Thresholding

    [2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation

    25. Watershed

    分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

    [1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations

    [2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies


    五、 计算机视觉

    这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。

    1. Active Appearance Models

    活动表观模型和活动轮廓模型基本思想来源Snake,现在在人脸三维建模方面得到了很成功的应用,这里列出了三篇最早最经典的文章。对这个领域有兴趣的可以从这三篇文章开始入手。

    [1998 ECCV] Active Appearance Models

    [2001 PAMI] Active Appearance Models

    2. Active Shape Models

    [1995 CVIU]Active Shape Models-Their Training and Application

    3. Background modeling and subtraction

    背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生,demo效果也很好,比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法,他们最大的贡献在于不用EM去做高斯拟合,而是采用了一种迭代的算法,这样就不需要保存很多帧的数据,节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法,把混合高斯模型做到了极致。这种方法效果也很好,而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里,无参数方法(2000 ECCV)和Vibe方法也值得关注。

    [1997 PAMI] Pfinder Real-Time Tracking of the Human Body

    [1999 CVPR] Adaptive background mixture models for real-time tracking

    [1999 ICCV] Wallflower Principles and Practice of Background Maintenance

    [2000 ECCV] Non-parametric Model for Background Subtraction

    [2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking

    [2002 PIEEE] Background and foreground modeling using nonparametric

    kernel density estimation for visual surveillance

    [2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction

    [2004 PAMI] Recursive unsupervised learning of finite mixture models

    [2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction

    [2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences

    4. Bag of Words

    词袋,在这方面暂时没有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。

    [2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos

    [2004 ECCV] Visual Categorization with Bags of Keypoints

    [2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories

    5. BRIEF

    BRIEF是Binary Robust Independent Elementary Features的简称,是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。

    [2010 ECCV] BRIEF Binary Robust Independent Elementary Features

    [2011 ICCV] ORB an efficient alternative to SIFT or SURF

    [2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast

    6. Camera Calibration and Stereo Vision

    非常不熟悉的领域。仅仅列出了十来篇重要的文献,供以后学习。

    [1979 Marr] A Computational Theory of Human Stereo Vision

    [1985] Computational vision and regularization theory

    [1987 IEEE] A versatile camera calibration technique for

    high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses

    [1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision

    [1988 PIEEE] Ill-Posed Problems in Early Vision

    [1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences

    [1990 IJCV] Relative Orientation

    [1990 IJCV] Using vanishing points for camera calibration

    [1992 ECCV] Camera self-calibration Theory and experiments

    [1992 IJCV] A theory of self-calibration of a moving camera

    [1992 PAMI] Camera calibration with distortion models and accuracy evaluation

    [1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis

    [1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment

    [1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations

    [1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system

    [2000 PAMI] A flexible new technique for camera calibration

    7. Color and Histogram Feature

    这里面主要来源于图像检索,早期的图像检测基本基于全局的特征,其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。

    [1995 SPIE] Similarity of color images

    [1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

    [1996] comparing images using color coherence vectors

    [1997 ] Image Indexing Using Color Correlograms

    [2001 TIP] An Efficient Color Representation for Image Retrieval

    [2009 CVIU] Performance evaluation of local colour invariants

    8. Deformable Part Model

    大红大热的DPM,在OpenCV中有一个专门的topic讲DPM和latent svm

    [2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model

    [2010 CVPR] Cascade Object Detection with Deformable Part Models

    [2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models

    9. Distance Transformations

    距离变换,在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。

    [1986 CVGIP] Distance Transformations in Digital Images

    [2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey

    10. Face Detection

    最成熟最有名的当属Haar+Adaboost

    [1998 PAMI] Neural Network-Based Face Detection

    [2002 PAMI] Detecting faces in images a survey

    [2002 PAMI] Face Detection in Color Images

    [2004 IJCV] Robust Real-Time Face Detection

    11. Face Recognition

    不熟悉,简单罗列之。

    [1991] Face Recognition Using Eigenfaces

    [2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art

    [2000] Face Recognition A Literature Survey

    [2006 PR] Face recognition from a single image per person A survey

    [2009 PAMI] Robust Face Recognition via Sparse Representation

    12. FAST

    用机器学习的方法来提取角点,号称很快很好。

    [2006 ECCV] Machine learning for high-speed corner detection

    [2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection

    13. Feature Extraction

    这里的特征主要都是各种不变性特征,SIFT,Harris,MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征,王永明与王贵锦合著的《图像局部不变性特征与描述》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。

    [1989 PAMI] On the detection of dominant points on digital curves

    [1997 IJCV] SUSAN—A New Approach to Low Level Image Processing

    [2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions

    [2004 IJCV] Scale & Affine Invariant Interest Point Detectors

    [2005 PAMI] A performance evaluation of local descriptors

    [2006 IJCV] A Comparison of Affine Region Detectors

    [2007 FAT] Local Invariant Feature Detectors - A Survey

    [2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors

    14. Feature Matching

    Fua课题组在今年PAMI上的一篇文章,感觉还不错

    [2012 PAMI] LDAHash Improved Matching with Smaller Descriptors

    15. Harris

    虽然过去了很多年,Harris角点检测仍然广泛使用,而且基于它有很多变形。如果仔细看了这种方法,从直观也可以感觉到这是一种很稳健的方法。

    [1988 Harris] A combined corner and edge detector

    16. Histograms of Oriented Gradients

    HoG方法也在OpenCV中实现了:HOGDescriptor。

    [2005 CVPR] Histograms of Oriented Gradients for Human Detection

    NavneetDalalThesis.pdf

    17. Image Distance

    [1993 PAMI] Comparing Images Using the Hausdorff Distance

    18. Image Stitching

    图像拼接,另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中,有专门一章是讨论这个问题。这里的两面文章一篇是综述,一篇是这方面很经典的文章。

    [2006 Fnd] Image Alignment and Stitching A Tutorial

    [2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

    19. KLT

    KLT跟踪算法,基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章,最后一篇给出了OpenCV实现KLT的细节。

    [1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version

    [1994 CVPR] Good Features to Track

    [2004 IJCV] Lucas-Kanade 20 Years On A Unifying Framework

    Pyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV

    20. Local Binary Pattern

    LBP。OpenCV的Cascade分类器也支持LBP,用来取代Haar特征。

    [2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns

    [2004 ECCV] Face Recognition with Local Binary Patterns

    [2006 PAMI] Face Description with Local Binary Patterns

    [2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features

    21. Low-Level Vision

    关于Low level vision的两篇很不错的文章

    [1998 TIP] A general framework for low level vision

    [2000 IJCV] Learning Low-Level Vision

    22. Mean Shift

    均值漂移算法,在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上关于Mean Shift的文章,一篇是OpenCV实现的文章。

    [1995 PAMI] Mean shift, mode seeking, and clustering

    [2002 PAMI] Mean shift a robust approach toward feature space analysis

    [2003 CVPR] Mean-shift blob tracking through scale space

    [2009 CVIU] Object tracking using SIFT features and mean shift

    [2012 PAMI] Mean Shift Trackers with Cross-Bin Metrics

    OpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface

    23. MSER

    这篇文章发表在2002年的BMVC上,后来直接录用到2004年的IVC上,内容差不多。MSER在Sonka的书里面也有提到。

    [2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions

    [2003] MSER Author Presentation

    [2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions

    [2011 PAMI] Are MSER Features Really Interesting

    24. Object Detection

    首先要说的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,后来到新加坡国立任教,极具潜力的一个老师。不幸的是,他和他的妻子都在2000年的新加坡空难中遇难,让人唏嘘不已。

    http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006

    最后一篇文章也是Fua课题组的,作者给出的demo效果相当好。

    [1998 PAMI] Example-based learning for view-based human face detection

    [2003 IJCV] Learning the Statistics of People in Images and Video

    [2011 PAMI] Learning to Detect a Salient Object

    [2012 PAMI] A Real-Time Deformable Detector

    25. Object Tracking

    跟踪也是计算机视觉中的经典问题。粒子滤波,卡尔曼滤波,KLT,mean shift,光流都跟它有关系。这里列出的是传统意义上的跟踪,尤其值得一看的是2008的Survey和2003年的Kernel based tracking。

    [2003 PAMI] Kernel-based object tracking

    [2007 PAMI] Tracking People by Learning Their Appearance

    [2008 ACM] Object Tracking A Survey

    [2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments

    [2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition

    [2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning

    [2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects

    26. OCR

    一个非常成熟的领域,已经很好的商业化了。

    [1992 IEEE] Historical review of OCR research and development

    Video OCR A Survey and Practitioner's Guide

    27. Optical Flow

    光流法,视频分析所必需掌握的一种算法。

    [1981 AI] Determine Optical Flow

    [1994 IJCV] Performance of optical flow techniques

    [1995 ACM] The Computation of Optical Flow

    [2004 TR] Tutorial Computing 2D and 3D Optical Flow

    [2005 BOOK] Optical Flow Estimation

    [2008 ECCV] Learning Optical Flow

    [2011 IJCV] A Database and Evaluation Methodology for Optical Flow

    28. Particle Filter

    粒子滤波,主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。

    [1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking

    [2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking

    [2002 TSP] Particle filters for positioning, navigation, and tracking

    [2003 SPM] particle filter

    29. Pedestrian and Human detection

    仍然是综述类,关于行人和人体的运动检测和动作识别。

    [1999 CVIU] Visual analysis of human movement_ A survey

    [2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture

    [2005 TIP] Image change detection algorithms a systematic survey

    [2006 CVIU] a survey of avdances in vision based human motion capture

    [2007 CVIU] Vision-based human motion analysis An overview

    [2007 IJCV] Pedestrian Detection via Periodic Motion Analysis

    [2007 PR] A survey of skin-color modeling and detection methods

    [2010 IVC] A survey on vision-based human action recognition

    [2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art

    30. Scene Classification

    当相机越来越傻瓜化的时候,自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。

    [2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope

    [2001 PAMI] Visual Word Ambiguity

    [2007 PAMI] A Thousand Words in a Scene

    [2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition

    [2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization

    31. Shadow Detection

    [2003 PAMI] Detecting moving shadows-- algorithms and evaluation

    32. Shape

    关于形状,主要是两个方面:形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征,用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别,最牛的当属J Malik等提出的Shape Context。

    [1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION

    [1993 PR] Pattern Recognition by Affine Moment Invariants

    [1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE

    [2001 SMI] Shape matching similarity measures and algorithms

    [2002 PAMI] Shape matching and object recognition using shape contexts

    [2004 PR] Review of shape representation and description techniques

    [2006 PAMI] Integral Invariants for Shape Matching

    [2008] A Survey of Shape Feature Extraction Techniques

    33. SIFT

    关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。

    [1999 ICCV] Object recognition from local scale-invariant features

    [2000 IJCV] Evaluation of Interest Point Detectors

    [2003 CVIU] Speeded-Up Robust Features (SURF)

    [2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors

    [2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints

    [2010 IJCV] Improving Bag-of-Features for Large Scale Image Search

    [2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications

    34. SLAM

    Simultaneous Localization and Mapping, 同步定位与建图。
    SLAM问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。

    [2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision

    [2007 PAMI] MonoSLAM Real-Time Single Camera SLAM

    35. Texture Feature

    纹理特征也是物体识别和检索的一个重要特征集。

    [1973] Textural features for image classification

    [1979 ] Statistical and structural approaches to texture

    [1996 PAMI] Texture features for browsing and retrieval of image data

    [2002 PR] Brief review of invariant texture analysis methods

    [2012 TIP] Color Local Texture Features for Color Face Recognition

    36. TLD

    Kadal创立了TLD,跟踪学习检测同步进行,达到稳健跟踪的目的。他的两个导师也是大名鼎鼎,一个是发明MSER的Matas,一个是Mikolajczyk。他还创立了一个公司TLD Vision s.r.o. 这里给出了他的系列文章,最后一篇是刚出来的PAMI。

    [2009] Online learning of robust object detectors during unstable tracking

    [2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints

    [2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES

    [2012 PAMI] Tracking-Learning-Detection

    37. Video Surveillance

    前两篇是两个很有名的视频监控系统,里面包含了很丰富的信息量,比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。

    [2000 CMU TR] A System for Video Surveillance and Monitoring

    [2000 PAMI] W4-- real-time surveillance of people and their activities

    [2008 MVA] The evolution of video surveillance an overview

    38. Viola-Jones

     Haar+Adaboost的弱弱联手,组成了最强大的利器。在OpenCV里面有它的实现,也可以选择用LBP来代替Haar特征。

    [2001 CVPR] Rapid object detection using a boosted cascade of simple features

    [2004 IJCV] Robust Real-time Face Detection

    六、 结束语


    历时一个多月,终于用业余时间把这些资料整理出来了,总算了却了一块心病,也不至于再看着一堆资料发愁了。以后可能会有些小修小补,但不会有太大的变化了。万里长征走完了第一步,剩下的就是理解和消化了。借新浪ishare共享出来,希望能够对你的科研也有一定的帮助。最后简单统计一下各个年份出现的频率。
    展开全文
  • 转载自:https://heleifz.github.io/15084626290253.html著作权归原作者所有。

    转载自:https://heleifz.github.io/15084626290253.html 著作权归原作者所有。

     

     

     

     

    展开全文
  • 图像压缩(SVD方法)

    千次阅读 2015-05-25 16:51:55
    奇异值分解在图像处理中有着重要应用。假定一幅图像有n∗nn*n个像素,如果将这n2n^2个数据一起传送,往往会显得数据量很大。因此我们希望能够改传送另外一些比较少的数据,在接收端利用这些数据重构原图像。 假定对...
  • SVD分解在图像处理中,也可理解为二维数据处理中具有非常重要的意义。如下:A=UDVTA=UDV^TA=UDVT 这里U和V均满足UUT=IUU^T=IUUT=I,VVT=IVV^T=IVVT=I 其中D如下: 现在:假如A代表一条曲线,如左边,U的每个...
  • 特征降维 理论

    千次阅读 2016-03-10 15:45:47
    特征值分解 奇异值分解SVD Python实现SVD 低阶近似 奇异值选取策略 相似度计算 基于物品相似度 基于物品相似度的推荐步骤 利用物品相似度预测评分 ...基于SVD图像压缩–阈值处理 基于SVD图像压缩
  • 基于MATLAB的svd算法的图像三原色压缩,先用svd图像进行三原色分解,然后分别对三原色进行svd压缩最后在合成压缩后的图像
  • python图像压缩脚本(内附PIL安装包和处理图片、基于SVD分解和图像重组)
  • 四、用SVD压缩图像

    千次阅读 2018-07-29 22:06:16
    在python的numpy库中跟我们提供了svd分解的函数: U, S, VT = numpy.linalg.svd(matrix) 该函数返回2个矩阵U、VT和1个1维的奇异值向量,这是因为奇异值矩阵是一个对角矩阵,除了对角元素外其他元素都为0,转为...
  • SVD

    2019-12-21 21:07:15
    特征分解复习2.SVD理论SVD分解:特征分解的广义化SVD分解的三种形式SVD和特征分解的关系SVD和子空间的关系再看四个子空间★SVD几何解释3.矩阵其它重要知识投影行列式伪逆迹4.实际应用低秩矩阵近似低秩矩阵近似应用...
  • SVD去噪效果好,甚至可以接近最新的基于深度学习的去噪算法,此篇文章为传统机器学习和基于深度学习的两个方法之间架起了桥梁,可以启发我们在传统的算法上面引入深度学习,以达到更好的图像处理效果。 Introduction...
  • 在很多情况下,数据的绝大部分信息往往集中在很小一部分数据上,我们知道线性代数中有很多矩阵的分解技术可以将矩阵表示成易于处理或是表达简化的形式。最常见的一就种是SVD(Singular Value Decomposition)算法。
  • 奇异值(Singular Value)往往对应着矩阵中的隐含的重要信息,且重要性与奇异值大小呈正相关。 关于奇异值的知识,可以...在图像处理中,奇异值小的部分往往代表着噪声,因此可以借助SVD算法来实现去噪。 选取
  • python编写的K-SVD稀疏字典学习去噪,可以显示字典的图像,去噪效果还行,还有待改进,有问题可以及时交流。
  • 利用SVD进行图像压缩

    2019-04-25 22:56:12
    利用SVD进行图像压缩 前边一篇文章中,总结了SVD相关的理论支持,老是一味的搞理论没有实践毕竟也是不行的,所以本文会简单的实现一个基于Python的图像压缩示例程序,来使用SVD进行简单图片的压缩以及还原实验。 ...
  • 使用python对图片进行SVD压缩的实践

    千次阅读 2019-01-15 02:25:20
    在python的numpy库中跟我们提供了svd分解的函数: U, S, VT = numpy.linalg.svd(matrix)  该函数返回2个矩阵U、VT(注意,这个返回的VT是转置的以行向量保存的特征向量,它也可以用于PCA和LDA的分解...
  • 传统图像处理的一些特征

    千次阅读 2017-07-27 22:59:48
    1.LBP(Local binary pattern)局部二值模式,是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征,对灰度(线性光照)...
  • svd图像压缩

    2020-07-30 23:30:19
    matlab,利用svd算法进行图像压缩。代码主要是利用matlab提供的函数,通过简单的算法实现图像的压缩。压缩率高,同时失真率低,可以很好的实现压缩
  • SVD用于图像压缩

    千次阅读 2018-05-18 14:46:57
    最近学习线性代数的有关东西,在看到奇异值分解(svd)时,发现了一个在图像压缩上的应用。 奇异值分解:在线性代数中,我们知道对任意一个矩阵都存在奇异值分解,,其中U和V是标准正交矩阵,而是一个对角矩阵,每一...
1 2 3 4 5 ... 20
收藏数 9,525
精华内容 3,810
关键字:

图像处理底层是svd