图像处理ml_.net core ml.net 图像处理 - CSDN
  • 最近看到了一篇很不错的博客,里面列了一些面试问题汇总,但是排版比较不容易看,而且原作者没有提供完整的答案,在此就基于原作者的思路,完善一下其内容。 ... 原作者的文章将文章分为三个部分,分别是机器学习,...

     

    最近看到了一篇很不错的博客,里面列了一些面试问题汇总,但是排版比较不容易看,而且原作者没有提供完整的答案,在此就基于原作者的思路,完善一下其内容。

    原博客地址:https://blog.csdn.net/meyh0x5vDTk48P2/article/details/79179164

    原作者的文章将文章分为三个部分,分别是机器学习,深度学习,opencv相关。

    一、机器学习方面

    (1)LR与SVM的区别

    本质区别是loss函数的不同:

     

    上面是LR的,下面是SVM的loss函数,可以看到,最明显的是SVM的loss函数自带L2正则化;其次,SVM的优化方向是让支持向量距离分界面的距离最大化,而LR的优化方向是让分类准确率最大化。其实当时我第一感觉LR用的就是交叉熵来做的loss,后来发现还真是。

    如果改变样本的内容,LR的决策面是会相应改变的,而对于SVM来说,如果改变的样本是非支持向量的话,决策面是不受影响的

    详细内容可看:https://www.cnblogs.com/zhizhan/p/5038747.html

    (2)生成模型与判别模型的区别

    生成模型主要有NB,马尔可夫,判别模型主要是LR,SVM,KNN

    简单的讲,生成模型就是要先求得联合概率,再利用贝叶斯公式去反推,哪个类别最有可能产生这个样本。判别模型则不需要求取联合概率,直接通过分析样本特征,找到最符合其特征的类别。

    (3)LR为什么用sigmoid函数,这个函数有什么优点和缺点?为什么不用其他函数?(sigmoid是伯努利分布的指数族形式)

    因为sigmoid函数非常接近与一个阶跃函数,所以采用sigmoid函数来作为激活函数。

    优点:非常接近与理想阶跃函数,且可以求导

    缺点:可能发生梯度消失,收敛缓慢

    sigmoid函数本身就是由逻辑回归的损失函数指数族分布形式推演过来的,并不能完全说是LR选择了sigmoid,应该是LR产生了sigmoid。

    (4)SVM的过程?Boost算法?

    以SMO算法为例,因为有约束:正负支持向量的alpha之和为0,那么在对alpha进行调整时,就必须成对的进行优化,确定两个alpha应该进行调整的前提时:1.两个alpha必须在间隔边界之外。2.并且没有经过区间化处理或者不在边界上。

    整个算法流程是:1)遍历所有样本,选择两个可以被优化的alpha,并进行优化,如果无法优化则跳出。2)重复第1步,如果在一次遍中,没有优化任一alpha,则记循环次数加1。3)如果循环次数大于最大循环次数,则退出循环,返回alpha和b。

    boost算法:

    通俗的讲,boost的思想就是用多个弱分类器来构造一个强分类器,那么怎么构造呢,假如针对一个数据集set,我们有一个分类器1号,它对set中的样本有分类正确的也有分类错误的,那么我门再拿出来那部分错误的样本去训练2号分类器,以此类推直到没有分类错误的样本或者弱分类器个数足够多了才停止。

    之后,在分类中,我们通过将不同分类器的输出结果加权求和作为最终结果,其权值就是与对应分类器在数据集set上分类正确率epsilom有关的:

    \frac{1}{2}\ln \left ( \frac{1-\varepsilon }{\varepsilon }\right )

    (5)决策树过拟合有哪些解决方法

    剪枝,即把一些相关属性合并为一个大类,减少分叉

    (6)L1与L2正则

    L1正则会导致参数稀疏化,而L2正则会导致参数的值偏小,可以由下图很明显的看出来:

    该处引用他人的图片来直观看出,黄蓝区域的交点即为最优解,图1是L2正则化的二维展现,可以看到交点大概率在边上,这样w1,w2都不会为0,而且都较小。图2是L1正则化的二维展现,可以看到交点位于坐标轴上,这样就会导致w2不为0,w1为0,进而导致了系数的稀疏化。

    (7)LR在特征较多时可以进行怎样的优化?

    如果是离线的话,L1正则可以有稀疏解,batch大点应该也有帮助,在线的解决思路有ftrl,rds,robots,还有阿里的mlr。当然还可以用gbdt,fm,ffm做一些特性选择和组合应该也有效果。

    (8)机器学习里面的聚类和分类模型有哪些?

    分类:LR、SVM、KNN、决策树、RandomForest、GBDT

    回归:non-Linear regression、SVR(支持向量回归-->可用线性或高斯核(RBF))、随机森林

    聚类:Kmeans、层次聚类、GMM(高斯混合模型)、谱聚类

    (9)kmeans的分类过程,用kmeans的数据有什么样的分布(高斯分布),loss函数是啥?

    分类过程:Kmeans中初始k个中心点(Kmeans对中心点的选取比较敏感)的选取方法:a、随机选取k个初始的样本中心点(b、直接选取k个样本点),然后计算每个样本到k个选定的样本中心点的距离;再比较待聚类样本到初始样本点的距离,将待聚类的样本指定为距离较近的各个类别(离哪个近,就归为哪一类);最后重新计算聚类中心:;重复迭代。直到聚类中心不再改变以及各样本到其中心的距离和不再大幅变化时即聚类收敛。

    loss函数就是各样本点到其当前确定的类别中心的距离和

    (10)逻辑回归和线性回归的损失函数

    逻辑回归应用于分类所以loss函数使用交叉熵函数

    线性回归应用于回归所以loss函数使用平方误差函数

    (11)正则化为什么能防止过拟合

    过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

    而L2正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。

    而L1正则化是通过简化模型的复杂度来防止过拟合。

    (12)什么是坐标轴下降法

    用来解决loss function对参数不可导时(此时梯度下降算法不再有效),求取参数更新量的方法

    坐标轴下降法和梯度下降法具有同样的思想,都是沿着某个方向不断迭代,但是梯度下降法是沿着当前点的负梯度方向进行参数更新,而坐标轴下降法是沿着坐标轴的方向。

    (13)什么是学习率褪火 (衰减)

    每学习多少次都会将学习率减少

    (14)多分类问题转二分类方法

    组合多个二分类器来实现多分类器,方法如下:

    a.一对多法(one-versus-rest,简称OVR SVMs)。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。

    b.一对一法(one-versus-one,简称OVO SVMs或者pairwise)。其做法是在任意两类样本之间设计一个SVM,因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时,最后得 票最多的类别即为该未知样本的类别。

    c.层次支持向量机(H-SVMs)。层次分类法首先将所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环,直到得到一个单独的类别为止。

    (15)跳出局部极小值方法

    优化方法,如momentum updata、Adam等;调整学习率

    (16)线性回归、广义线性回归

    广义线性回归的联结函数可以有不同的选择。

    线性回归和逻辑回归都是在确定输出分布的情况下,从广义线性模型中推导出来的,比如逻辑回归的输出符合二项0-1分布,所以选择了sigmoid作为联结函数。

    (17)最小二乘误差及其概率解释

    概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性 则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。找到使得数据集出现的概率最大时的参数,就称为极大似然估计

    所以,之前讲的一般的最小二乘法实际上是在假设误差项满足高斯分布且独立同分布的情况下,使似然性最大化。

    (18)LDA(二类、多类)

    LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

     

    上图提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了,当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

    (19)类别不平衡解决方法

    扩大数据集、欠采样、过采样、使用新标准评价、采用其他分类方法

    (20)模型融合方法

    bagging、随机森林、ADABOOST、 Gradient Boosting Tree

    前面两种是综合多个模型的结果;后面两个是重复训练。

    前面是将对同一数据集训练好的模型的输出结果按一定权值做加权和,来作为最后输出。

    后面是利用弱分类器组合强分类器,在训练每一个弱分类器时均注重之前已有的弱分类器不能正确分类的部分样本,并最后做加权融合。

    (21)SVM核函数

    核函数主要是将线性不可分的数据映射到高位空间再进行分类

    高斯核作为最常用的核函数,其缺点在于:容易过拟合,需要较大的样本集,泛化能力弱

    (22)特征选择方法

    特征选择的原因:

    特征存在冗余(特征相关度太高)、掺杂了噪声(特征对预测结果有负影响)

    L1正则化是截断效应(实现稀疏,把不相关的特征的系数变成0);L2正则化是缩放效应,使最后得到的参数很小

    (23)交叉熵

    相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。

    在机器学习中,P是真实分布,Q是训练出的模型,那么使用KL散度既可以衡量两个模型的差异,作为训练的loss函数,由于KL散度中的前一部分−H(y)−H(y)不变,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss,评估模型。

    (24)最大熵模型、EM(Expectation Maximization)算法

    最大熵原则:

    对于一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况下不做任何主观的假设,在这种情况下,概率分布是最均匀的,预测的风险性最小,因此得到的概率分布的熵最大。

    这里EM算法的流程借用他人的流程图,这样看来并不好理解,所以我们以kmean算法的实现为例,在实现kmean聚类前,我们首先要假设出k个聚类中心,这就是上图中的隐变量Z,再结合Z就可以给当前样本的类别theta赋初值,然后通过计算类别平均中心来更新Z,theta,当Z不再有变化也就是theta不再有变化时,聚类就完成了。

    相似的使用EM算法来完成的还有GMM聚类,不同于Kmean的是,GMM是使用k个c维高斯分布分别去包围k个类别的样本,而Kmean应该是用k个圆来包围。

    (25)过拟合,欠拟合

    欠拟合(under fitting):参数过少,不足以表达数据的特征

    过拟合(over fitting):参数过多,过渡拟合数据,泛化能力差(训练时的准确率很好,但测试的时候就很差)

     

     

     

     

     


     

     

     

     

     

    展开全文
  • 人脸表情识别/人脸检测/ML/DL/图像处理博主 人脸表情识别/人脸检测/ML/DL/图像处理博主:https://blog.csdn.net/app_12062011/article/category/7618871

    人脸表情识别/人脸检测/ML/DL/图像处理博主

    人脸表情识别/人脸检测/ML/DL/图像处理博主:https://blog.csdn.net/app_12062011/article/category/7618871

    展开全文
  • 图像处理经典文献

    2018-01-29 10:43:26
    我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉...

    转自http://blog.csdn.net/passball/article/details/42805269

    1. 数学

    我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研的三门课,构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步,就要到网上搜搜林达华推荐的数学数目了。


    2. 信号处理

    图像处理其实就是二维和三维信号处理,而处理的信号又有一定的随机性,因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。


    2.1经典信号处理

    信号与系统(第2版)  Alan V.Oppenheim等著 刘树棠译

    离散时间信号处理(第2版)  A.V.奥本海姆等著 刘树棠译

    数字信号处理:理论算法与实现胡广书 (编者)

     

    2.2随机信号处理

    现代信号处理 张贤达著

    统计信号处理基础:估计与检测理论Steven M.Kay等著 罗鹏飞等译

    自适应滤波器原理(第4版) Simon Haykin著 郑宝玉等译

     

    2.3 小波变换

    信号处理的小波导引:稀疏方法(原书第3版)  tephane Malla著, 戴道清等译

     

    2.4 信息论

    信息论基础(原书第2版) Thomas M.Cover等著 阮吉寿等译


    3. 模式识别

    Pattern Recognition and Machine Learning Bishop, Christopher M. Springer

    模式识别(英文版)(第4版) 西奥多里德斯著

    Pattern Classification (2nd Edition) Richard O. Duda等著

    Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著

    模式识别(第3版) 张学工著


    4. 图像处理与计算机视觉的书籍推荐

    图像处理,分析与机器视觉 第三版Sonka等著 艾海舟等译

    Image Processing, Analysis and Machine Vision

    这本书是图像处理与计算机视觉里面比较全的一本书了,几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以,值得一看。


    数字图像处理 第三版 冈萨雷斯等著

    Digital Image Processing

    数字图像处理永远的经典,现在已经出到了第三版,相当给力。我的导师曾经说过,这本书写的很优美,对写英文论文也很有帮助,建议购买英文版的。


    计算机视觉:理论与算法 RichardSzeliski著

    Computer Vision: Theory and Algorithm

    微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富,尤其包括了作者的研究兴趣,比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版,可以有选择性的阅读。


    Multiple View Geometry in Computer Vision 第二版Harley等著

    引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的,后来绝版了。网上也可以找到电子版。


    计算机视觉:一种现代方法 DAForsyth等著

    Computer Vision: A Modern Approach

    MIT的经典教材。虽然已经过去十年了,还是值得一读。第二版已经在今年(2012年)出来了,在iask上可以找到非常清晰的版本,将近800页,补充了很多内容。期待影印版。


    Machine vision: theory,algorithms, practicalities 第三版 Davies著

    为数不多的英国人写的书,偏向于工业。


    数字图像处理 第四版 Pratt著

    Digital Image Processing

    写作风格独树一帜,也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。


    5 小结

    罗嗦了这么多,实际上就是几个建议:

    (1)基础书千万不可以扔,也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题,对着全新的书看完全没有看自己当年上过的课本有感觉。

    (2)遇到有相关的课,果断选修或者蹭之,比如随机过程,小波分析,模式识别,机器学习,数据挖掘,现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。

    (3)资金允许的话可以多囤一些经典的书,有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

    图像处理与计算机视觉:基础,经典以及最近发展(3)计算机视觉中的信号处理与模式识别

    Last Update: 2012-6-23


    从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法,按照字母顺序排的序。

    本章的下载地址在:

    http://iask.sina.com.cn/u/2252291285/ish?folderid=868770

    1.  Boosting


    Boosting是最近十来年来最成功的一种模式识别方法之一,个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠,赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%,就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议,但Haar+Adaboost确实在人脸检测上取得了巨大的成功,已经成了工业界的事实标准,并且逐步推广到其他物体的检测。

    Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展,他把原始的两个方向的Haar特征扩展到了四个方向,他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去发掘。


    [1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting

    [1998] Boosting the margin A new explanation for the effectiveness of voting methods

    [2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection

    [2003] The Boosting Approach to Machine Learning An Overview

    [2004 IJCV] Robust Real-time Face Detection


    2. Clustering


    聚类主要有K均值聚类,谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常,评价标准不同,得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献,在使用的时候可以基于这些方法设计自己的准则。关于聚类,一般的模式识别书籍都介绍的比较详细,不过关于cluster validity讲的比较少,可以参考下面的文章看看。


    [1989 PAMI] Unsupervised Optimal Fuzzy Clustering

    [1991 PAMI] A validity measure for fuzzy clustering

    [1995 PAMI] On cluster validity for the fuzzy c-means model

    [1998] Some New Indexes of Cluster Validity

    [1999 ACM] Data Clustering A Review

    [1999 JIIS] On Clustering Validation Techniques

    [2001] Estimating the number of clusters in a dataset via the Gap statistic

    [2001 NIPS] On Spectral Clustering

    [2002] A stability based method for discovering structure in clustered data

    [2007] A tutorial on spectral clustering


    3.  Compressive Sensing


    最近大红大紫的压缩感知理论。


    [2006 TIT] Compressed Sensing

    [2008 SPM] An Introduction to Compressive Sampling

    [2011 TSP] Structured Compressed Sensing From Theory to Applications


    4. Decision Trees


    对决策树感兴趣的同学这篇文章是非看不可的了。


    [1986] Introduction to Decision Trees


    5. Dynamical Programming


    动态规划也是一个比较使用的方法,这里挑选了一篇PAMI的文章以及一篇Book Chapter


    [1990 PAMI] using dynamic programming for solving variational problems in vision

    [Book Chapter] Dynamic Programming


    6.  Expectation Maximization


    EM是计算机视觉中非常常见的一种方法,尤其是对参数的估计和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章,讲的很不错。关于EM的tutorial,网上也可以搜到很多。


    [1977] Maximum likelihood from incomplete data via the EM algorithm

    [1996 SPM] The Expectation-Maximzation Algorithm


    7.  Graphical Models


    伯克利的乔丹大仙的Graphical Model,可以配合这Bishop的PRML一起看。


    [1999 ML] An Introduction to Variational Methods for Graphical Models


    8. Hidden Markov Model


    HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的,用HMM来描述小波系数之间的相互关系,并用来做检索。这里提供一篇1989年的经典综述,几篇HMM在小波,分割,检索和纹理上的应用以及一本比较早的中文电子书,现在也不知道作者是谁,在这里对作者表示感谢。


    [1989 ] A tutorial on hidden markov models and selected applications in speech recognition

    [1998 TSP] Wavelet-based statistical signal processing using hidden Markov models

    [2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models

    [2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hiddenMarkov models

    [2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models

    Hmm Chinese book.pdf


    9.  Independent Component Analysis


    同PCA一样,独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章,最后一篇是第二篇的TR版本,内容差不多,但比较清楚一些。


    [1999] Independent Component Analysis A Tutorial

    [2000 NN] Independent component analysis algorithms and applications

    [2000] Independent Component Analysis Algorithms and Applications


    10. Information Theory


    计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版,如果需要用到的话,也可以参考这本书。


    [1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution

    [2010] An information theory perspective on computational vision


    11.  Kalman Filter


    这个话题在张贤达老师的现代信号处理里面讲的比较深入,还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述,还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。


    [1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman

    [1970] Least-squares estimation_from Gauss to Kalman

    [1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System

    [2000] The Unscented Kalman Filter for Nonlinear Estimation

    [2001 Siggraph] An Introduction to the Kalman Filter_full

    [2003] A Study of the Kalman Filter applied to Visual Tracking


    12.  Pattern Recognition and Machine Learning


    模式识别名气比较大的几篇综述


    [2000 PAMI] Statistical pattern recognition a review

    [2004 CSVT] An Introduction to Biometric Recognition

    [2010 SPM] Machine Learning in Medical Imaging


    13. Principal Component Analysis


    著名的PCA,在特征的表示和特征降维上非常有用。


    [2001 PAMI] PCA versus LDA

    [2001] Nonlinear component analysisas a kernel eigenvalue problem

    [2002] A Tutorial on Principal Component Analysis

    [2004 PAMI] Two-dimensional PCA a new approach to appearance-based face representation and recognition

    [2009] A Tutorial on Principal Component Analysis

    [2011] Robust Principal Component Analysis

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis


    14.  Random Forest


    随机森林


    [2001 ML] Random Forests


    15.      RANSAC


    随机抽样一致性方法,与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。


    [2009 BMVC] Performance Evaluation of RANSAC Family


    16.      Singular Value Decomposition

    对于非方阵来说,就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter

    [2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation

    [Book Chapter] Singular Value Decomposition and Principal Component Analysis


    17.  Sparse Representation


    这里主要是Proceeding of IEEE上的几篇文章


    [2009 PAMI] Robust Face Recognition via Sparse Representation

    [2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview

    [2010 PIEEE] Dictionaries for Sparse Representation Modeling

    [2010 PIEEE] It's All About the Data

    [2010 PIEEE] Matrix Completion With Noise

    [2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing

    [2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition

    [2011 SPM] Directionary Learning


    18.   Support Vector Machines

    [1998] A Tutorial on Support Vector Machines for Pattern Recognition

    [2004] LIBSVM A Library for Support Vector Machines


    19.  Wavelet

    在小波变换之前,时频分析的工具只有傅立叶变换。众所周知,傅立叶变换在时域没有分辨率,不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点,但只能刻画恒定窗口的频率特性,并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题,作为一种多分辨率分析工具,在图像处理中得到了极大的发展和应用。在小波变换的发展过程中,有几个人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他们的著作更是小波变换的必读之作,相对来说,小波十讲太偏数学了,比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波,使小波变换能够快速方便的实现,他的功劳有点类似于FFT。而Donoho,Vetteri,Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换,让小波变换有了方向性,更便于压缩,去噪等任务。尤其要提的是M.N.Do,他是一个越南人,得过IMO的银牌,在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌,希望也有一两个进入这个领域,能够也让我等也敬仰一下。而不是一股脑的都进入金融,管理这种跟数学没有多大关系的行业,呵呵。很希望能看到中国的陶哲轩,中国的M.N.Do。


    说到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000,就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来,这个想法太Naive了。现在已经过去十几年了,JPEG2000依然没有任何出头的迹象。不得不说,工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话,想改变太难了。不巧的是,JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率?现在动辄1T,2T的硬盘,没人太在意压缩率。渐进传输?现在的网速包括无线传输的速度已经相当快了,渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了,从最近的会议和期刊文档也可以看出这个趋势。不管怎么说,JPEG2000的Overview还是可以看看的。


    [1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation

    [1996 PAMI] Image Representation using 2D Gabor Wavelet

    [1998 ] FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS

    [1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets

    [2000 TCE] The JPEG2000 still image coding system_ an overview

    [2002 TIP] The curvelet transform for image denoising

    [2003 TIP] Gray and color imagecontrast enhancement by the curvelet transform

    [2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters

    [2003 TIP] The finite ridgelet transform for image representation

    [2005 TIP] Sparse Geometric Image Representations With Bandelets

    [2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation

    [2010 SPM] The Curvelet Transform


    图像处理与计算机视觉:基础,经典以及最近发展(4)图像处理与分析

    Last update: 2012-6-3

    本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。

    本章的下载地址在:

    http://iask.sina.com.cn/u/2252291285/ish?folderid=868771


    1. Bilateral Filter

    Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出。它现在已经发挥着重大作用,尤其是在HDR领域。

    [1998 ICCV] BilateralFiltering for Gray and Color Images

    [2008 TIP] AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal


    2. Color

    如果对颜色的形成有一定的了解,能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma,颜色空间转换,颜色索引以及肤色模型等,这其中也包括著名的EMD。

    [1991 IJCV] Color Indexing

    [2000 IJCV] The EarthMover's Distance as a Metric for Image Retrieval

    [2001 PAMI] Colorinvariance

    [2002 IJCV] StatisticalColor Models with Application to Skin Detection

    [2003] A review of RGBcolor spaces

    [2007 PR]A survey ofskin-color modeling and detection methods

    Gamma.pdf

    GammaFAQ.pdf


    3.Compression and Encoding

    个人以为图像压缩编码并不是当前很热的一个话题,原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

    [2005 IEEE] Trends andperspectives in image and video coding


    4.Contrast Enhancement

    对比度增强一直是图像处理中的一个恒久话题,一般来说都是基于直方图的,比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

    [2002 IJCV] Vision and theAtmosphere

    [2003 TIP] Gray and colorimage contrast enhancement by the curvelet transform

    [2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastenhancement-part II

    [2006 TIP] Gray-levelgrouping (GLG) an automatic method for optimized image contrastEnhancement-part I

    [2007 TIP] TransformCoefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy

    [2009 TIP] A HistogramModification Framework and Its Application for Image Contrast Enhancement


    5. Deblur (Restoration)

    图像恢复或者图像去模糊一直是一个非常难的问题,尤其是盲图像恢复。港中文的jiaya jia老师在这方面做的不错,他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献,包括古老的Richardson-Lucy方法,几篇盲图像恢复的综述以及最近的几篇文章,尤以Fergus和Jiaya Jia的为经典。

    [1972] Bayesian-BasedIterative Method of Image Restoration

    [1974] an iterative techniquefor the rectification of observed distributions

    [1990 IEEE] Iterativemethods for image deblurring

    [1996 SPM] Blind ImageDeconvolution

    [1997 SPM] Digital imagerestoration

    [2005] Digital ImageReconstruction - Deblurring and Denoising

    [2006 Siggraph] RemovingCamera Shake from a Single Photograph

    [2008 Siggraph]High-quality Motion Deblurring from a Single Image

    [2011 PAMI]Richardson-Lucy Deblurring for Scenes under a Projective Motion Path


    6. Dehazing and Defog

    严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA(估计当时也就二十五六岁吧),相当了不起。

    [2008 Siggraph] SingleImage Dehazing

    [2009 CVPR] Single ImageHaze Removal Using Dark Channel Prior

    [2011 PAMI] Single ImageHaze Removal Using Dark Channel Prior


    7. Denoising

    图像去噪也是图像处理中的一个经典问题,在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

    [1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion. II

    [1992 SIAM] Imageselective smoothing and edge detection by nonlinear diffusion

    [1992] Nonlinear totalvariation based noise removal algorithms

    [1994 SIAM] Signal andimage restoration using shock filters and anisotropic diffusion

    [1995 TIT] De-noising bysoft-thresholding

    [1998 TIP] Orientationdiffusions

    [2000 TIP] Adaptivewavelet thresholding for image denoising and compression

    [2000 TIP] Fourth-orderpartial differential equations for noise removal

    [2001] Denoising  through wavelet shrinkage

    [2002 TIP] The CurveletTransform for Image Denoising

    [2003 TIP] Noise removalusing fourth-order partial differential equation with applications to medicalmagnetic resonance images in space and time

    [2008 PAMI] AutomaticEstimation and Removal of Noise from a Single Image

    [2009 TIP] Is DenoisingDead


    8. Edge Detection

    边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子,尤其是Sobel算子,以及经典的Canny边缘检测。到现在,Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到,网上也可以搜到。最快最直接的方法就是看OpenCV的源代码,非常好懂。在边缘检测方面,Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好,当然也比较复杂。在复杂度要求不高的情况下,还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好,并且便于实现。这里给出了几篇比较好的文献,包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题,这方面研究多深都不为过。

    [1980] theory of edgedetection

    [1983 Canny Thesis] findedge

    [1986 PAMI] AComputational Approach to Edge Detection

    [1990 PAMI] Scale-spaceand edge detection using anisotropic diffusion

    [1991 PAMI] The design anduse of steerable filters

    [1995 PR] Multiresolutionedge detection techniques

    [1996 TIP] Optimal edgedetection in two-dimensional images

    [1998 PAMI] Local ScaleControl for Edge Detection and Blur Estimation

    [2003 PAMI] Statisticaledge detection_ learning and evaluating edge cues

    [2004 IEEE] Edge DetectionRevisited

    [2004 PAMI] Design ofsteerable filters for feature detection using canny-like criteria

    [2004 PAMI] Learning toDetect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues

    [2011 IVC] Edge and lineoriented contour detection State of the art


    9. Graph Cut

    基于图割的图像分割算法。在这方面没有研究,仅仅列出几篇引用比较高的文献。这里又见J Malik,当然还有华人杰出学者Jianbo Shi,他的主页非常搞笑,在醒目的位置标注Do not flyChina Eastern Airlines ... 看来是被坑过,而且坑的比较厉害。这个领域,俄罗斯人比较厉害。

    [2000 PAMI] Normalizedcuts and image segmentation

    [2001 PAMI] Fastapproximate energy minimization via graph cuts

    [2004 PAMI] What energyfunctions can be minimized via graph cuts


    10.Hough Transform

    虽然霍夫变换可以扩展到广义霍夫变换,但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码,一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

    [1986 CVGIU] A Survey ofthe Hough Transform

    [1989] A Comparative studyof Hough transform methods for circle finding

    [1992 PAMI] Shapesrecognition using the straight line Hough transform_ theory and generalization

    [1997 PR] Extraction ofline features in a noisy image

    [2000 CVIU] RobustDetection of Lines Using the Progressive Probabilistic Hough Transform


    11. Image Interpolation

    图像插值,偶尔也用得上。一般来说,双三次也就够了

    [2000 TMI] Interpolationrevisited


    12. Image Matting

    也就是最近,我才知道这个词翻译成中文是抠图,比较难听,不知道是谁开始这么翻译的。没有研究,请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

    [2008 Fnd] Image and VideoMatting A Survey

    [2008 PAMI] A Closed-FormSolution to Natural Image Matting

    [2008 PAMI] SpectralMatting


    13.  Image Modeling

    图像的统计模型。这方面有一本专门的著作Natural Image Statistics

    [1994] The statistics ofnatural images

    [2003 JMIV] On Advances inStatistical Modeling of Natural Images

    [2009 IJCV] Fields ofExperts

    [2009 PAMI] Modelingmultiscale subbands of photographic images with fields of Gaussian scalemixtures


    14. Image Quality Assessment

    在图像质量评价方面,Bovik是首屈一指的。这位老师也很有意思,作为编辑出版了很多书。他也是IEEE的Fellow

    [2004 TIP] Image qualityassessment from error visibility to structural similarity

    [2011 TIP] blind imagequality assessment From Natural Scene Statistics to Perceptual Quality


    15.  Image Registration

    图像配准最早的应用在医学图像上,在图像融合之前需要对图像进行配准。在现在的计算机视觉中,配准也是一个需要理解的概念,比如跟踪,拼接等。在KLT中,也会涉及到配准。这里主要是综述文献。

    [1992 MIA] Image matching asa diffusion process

    [1992 PAMI] A Method forRegistration of 3-D shapes

    [1992] a survey of imageregistration techniques

    [1998 MIA] A survey ofmedical image registration

    [2003 IVC] Imageregistration methods a survey

    [2003 TMI]Mutual-Information-Based Registration of Medical Survey

    [2011 TIP] Hairisregistration


    16. Image Retrieval

    图像检索曾经很热,在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后,再加上互联网搜索的商业需求,这个方向似乎又要火起来了,尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处,比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter,其中一篇还是中文的。

    [2000 PAMI] Content-basedimage retrieval at the end of the early years

    [2000 TIP] PicToSeekCombining Color and Shape Invariant Features for Image Retrieval

    [2002] Content-Based ImageRetrieval Systems A Survey

    [2008] Content-Based ImageRetrieval-Literature Survey

    [2010] Plant ImageRetrieval Using Color,Shape and Texture Features

    [2012 PAMI] A MultimediaRetrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback

    CBIR Chinese

    fundament of cbir


    17. Image Segmentation

    图像分割,非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章,再次看到了J Malik。他们给出了源代码和测试集,有兴趣的话可以试试。

    [2004 IJCV] EfficientGraph-Based Image Segmentation

    [2008 CVIU] Imagesegmentation evaluation A survey of unsupervised methods

    [2011 PAMI] ContourDetection and Hierarchical Image Segmentation


    18. Level Set

    大名鼎鼎的水平集,解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目,实在让人遗憾。个人以为,这种方法除了迭代比较费时,在真实场景中的表现让人生疑。不过,2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面,Chunming Li给出了比较好的解决方案

    [1995 PAMI] Shape modelingwith front propagation_ a level set approach

    [2001 JCP] Level SetMethods_ An Overview and Some Recent Results

    [2005 CVIU] Geodesicactive regions and level set methods for motion estimation and tracking

    [2007 IJCV] A Review ofStatistical Approaches to Level Set Segmentation

    [2008 ECCV] RobustReal-Time Visual Tracking using Pixel-Wise Posteriors

    [2010 TIP] DistanceRegularized Level Set Evolution and its Application to Image Segmentation


    19.Pyramid

    其实小波变换就是一种金字塔分解算法,而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单,实现起来比较方便。

    [1983] The LaplacianPyramid as a Compact Image Code


    20. Radon Transform

    Radon变换也是一种很重要的变换,它构成了图像重建的基础。关于图像重建和radon变换,可以参考章毓晋老师的书,讲的比较清楚。

    [1993 PAMI] Imagerepresentation via a finite Radon transform

    [1993 TIP] The fastdiscrete radon transform I theory

    [2007 IVC] Generalisedfinite radon transform for N×N images


    21.Scale Space

    尺度空间滤波在现代不变特征中是一个非常重要的概念,有人说SIFT的提出者Lowe是不变特征之父,而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的,但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读,不管是特征提取方面还是边缘检测方面。

    [1987] Scale-spacefiltering

    [1990 PAMI] Scale-Spacefor Discrete Signals

    [1994] Scale-space theoryA basic tool for analysing structures at different scales

    [1998 IJCV] Edge Detectionand Ridge Detection with Automatic Scale Selection

    [1998 IJCV] FeatureDetection with Automatic Scale Selection


    22. Snake

    活动轮廓模型,改变了传统的图像分割的方法,用能量收缩的方法得到一个统计意义上的能量最小(最大)的边缘。

    [1987 IJCV] Snakes ActiveContour Models

    [1996 ] deformable modelin medical image A Survey

    [1997 IJCV] geodesicactive contour

    [1998 TIP] Snakes, shapes,and gradient vector flow

    [2000 PAMI] Geodesic activecontours and level sets for the detection and tracking of moving objects

    [2001 TIP] Active contourswithout edges


    23.  Super Resolution

    超分辨率分析。对这个方向没有研究,简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

    [2002] Example-BasedSuper-Resolution

    [2003 SPM] Super-Resolution Image Reconstruction A Technical Overview

    [2009 ICCV] Super-Resolutionfrom a Single Image

    [2010 TIP] ImageSuper-Resolution Via Sparse Representation


    24. Thresholding

    阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

    [1979 IEEE] OTSU Athreshold selection method from gray-level histograms

    [2001 JISE] A Fast Algorithmfor Multilevel Thresholding

    [2004 JEI] Survey overimage thresholding techniques and quantitative performance evaluation


    25. Watershed

    分水岭算法是一种非常有效的图像分割算法,它克服了传统的阈值分割方法的缺点,尤其是Marker-Controlled Watershed,值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

    [1991 PAMI] Watersheds indigital spaces an efficient algorithm based on immersion simulations

    [2001]The WatershedTransform Definitions, Algorithms and Parallelizat on Strategies

    展开全文
  • 机器学习是人工智能的一个分支,他的目的在于吸收任何的数据比如说(图像,文本,语音,统计数据) 然后作出预测数据当中所隐藏的特征或是行为。ML可以做什么?面部识别 面部特征识别 (微笑、哭泣…) 特征检测和...

    什么是 Machine Learning?

    机器学习是人工智能的一个分支,他的目的在于吸收任何的数据比如说(图像,文本,语音,统计数据) 然后作出预测数据当中所隐藏的特征或是行为。

    AI  ML  DL 之间的关系

    ML可以做什么?

    面部识别
    面部特征识别 (微笑、哭泣…)
    特征检测和替换 (把你的哭变成笑)

    ML是怎么学习的?

    我们使用海量的图片,数据等等来告诉他A是啥B是啥,笑是什么等等
    然后让他通过这些数据找到最符合这个图的结果。

    但是,怎么和学习有关吗?
    一个模型,经过多次的使用,会越来越聪明,分辨的可靠性越来越高。
    有点像走迷宫,有很多种出去的方法。走的多了,就知道最近的一条路是哪了。
    万一遇到死胡同怎么办呢?对,比方说他识别是个砖头,但是后面的信息是它的叫声是汪汪汪,很明显猜测砖头是错。我们就返回去,接着去找其它的路。
    直到所有的数据都分析完了,给你一个最可靠的答案。当然这个答案也可能是错的。。。

    神经网络

    1、人工神经网络(ANN)

    人工神经网络Artificial Neuron Network是基于生物的神经结构和功能的一种计算模式。

    2、积卷神经网络(CNN)

    卷积神经网络Convolutional Neural Network是一种反馈形式的人工神经网络。

    3、递归神经 (RNN)

    递归神经网络Recurrent Neural Network 他是一种深层次的学习模式,他跟 CNN 有点不同,他会在许多的神经网络的隐藏层之间反覆的游走,我们甚至可以说他是有记忆的。

    =============================================
    【下面让我们通过coreML来识别一条狗,看它能不能行】

    STEP1

    我找到一只大金毛、hello.jpeg
    hello.jpeg

    STEP2

    导入Resnet50.mlmodel

    STEP3

    代码如下:

    import UIKit
    import CoreML
    import Vision
    
    class ViewController: UIViewController {
    
        override func viewDidLoad() {
            super.viewDidLoad()
    
            //在内存里面拿到这个图片。
            let path = Bundle.main.path(forResource: "hello", ofType: "jpeg");
    
            let imageUrl = NSURL.fileURL(withPath: path!);
    
            let modelFile = Resnet50();
    
            let model = try! VNCoreMLModel(for: modelFile.model); //把这个模型拿来视觉处理
    
            let handler = VNImageRequestHandler(url: imageUrl);
    
            //结果从模型里面取
            let request = VNCoreMLRequest(model: model, completionHandler: myResultMethod);
    
            try! handler.perform([request]);
    
        }
    
        //处理结果
        func myResultMethod(request: VNRequest,error: Error?){
    
            //判别结果是否存在
            guard let resultes = request.results as? [VNClassificationObservation] else {
                fatalError("拿不到结果");
            }
    
            //相似物名称
            var bestPrediction = "";
            //相似度
            var bestConfidence:VNConfidence = 0;
            //递归
            for classIfication in resultes {
    
                if(classIfication.confidence > bestConfidence){
                    bestConfidence = classIfication.confidence;
                    bestPrediction = classIfication.identifier;
                }
            }
            print("预测结果\(bestPrediction) 可信度\(bestConfidence)")
        }
    
    }

    STEP4

    我们看下控制台的结果

    我们可以看到预测的结果是golden retriever,准确度有96.434%

    准确度很高了。我们看下是不是对。

    恭喜恭喜!!你这个小家伙预测对了。就是我最爱的大金毛。

    展开全文
  • 主要进行数字信号处理、图像处理、分析与计算机视觉基础理论学习以及课程项目实践。第二阶段为特定专题理论及应用研究;是在第一阶段学习的基础上,选定数字图像处理与计算机视觉及其应用的某一领域进行深入研修,...

      整个研修分两个阶段进行。其中第一阶段为专业课程学习阶段;主要进行数字信号处理、图像处理、分析与计算机视觉基础理论学习以及课程项目实践。第二阶段为特定专题理论及应用研究;是在第一阶段学习的基础上,选定数字图像处理与计算机视觉及其应用的某一领域进行深入研修,主要进行科学研究和实际应用训练。
    大约需要2~3 年左右时间来完成研修,每个阶段估计至少需要1~1.5 年时间。
    可以根据学生的具体情况穿插滚动式进行。预计在此领域研修的学生需要补习的数学知识较多且时间有限,因此建议研修采用数字图像技术知识与数学知识并行
    学习的方式来进行。
    第一阶段主要为若干门(组)专业课程的学习:
    一、数字信号处理基础
    大约需要4 个月时间
    1.学习《信号与系统》课程,完成相应的习题。
    2.学习《数字信号处理》课程,完成相应的习题。
    3.学生根据自身情况,向导师咨询,补习相关数学课程,完成一定量的习题。
    部分参考书目
    ◇ Richard G. Lyons, Understanding Digital Signal Processing, 2nd Edition
    ◇ John G. Proakis, Dimitris G. Manolakis,
    Digital Signal Processing: Principles, Algorithms, and Applications, 4th Ed.
    ◇ Jonathan Y. Stein,
    Digital Signal Processing: A Computer Science Perspective, 2nd Edition
    ◇ Sanjit K. Mitra,
    Digital Signal Processing: A Computer-Based Approach, 2nd Edition
    ◆ Ingrid Daubechies, Ten Lectures on Wavelets
    ◇ Christian Blatter, Wavelets: A Primer
    ◇ D. P. Radunović, Wavelets: from MATH to PRACTICE
    ◆ Bracewell R. N., The Fourier Transform and Its Applications, 3rd Edition
    ◆ A. V. Oppenheim & A. S. Willsky, Signals and Systems, 2nd Edition
    ◇ A. V. Oppenheim, R. W. Schafer, John R. Buck,
    Discrete Time Signal Processing, 3rd Edition
    2
    二、数字图像处理导论
    大约需要4 个月时间
    1.学习《数字图像处理》课程,完成相应数量的习题。
    2.学习数字图像处理程序设计,完成至少5 个图像处理算法的程序设计习题。
    3.完成数字图像处理课程设计——开发一个具有基本功能的图像处理软件包。
    部分参考书目
    ◆ Digital Image Processing,(例如Castleman, Gonzalez, Jähne, Jain, Pratt 等人)
    ◇ Dwayne Phillips, Image Processing in C, 2nd Edition
    ◆ Sonka M., Glavac V., Boyle R.,
    Image Processing, Analysis, and Machine Vision, 3rd Edition
    三、数字图像分析与理解高级课程
    大约需要6 个月时间
    1.学习《模式识别》、完成习题;研读《Pattern Classification》。
    2.学习CA、PCA、FA、LDA 和ICA 等多元统计分析知识。
    3.完成图像分割、人脸识别等3~5 个课程项目。
    4.PDE 与Level Sets 在图像处理中的应用。
    5.阅读ML、SVM、EM、SOM 等专题的英文原著,深入理解和掌握相关知识。
    6.阅读Evolutionary Intelligence及其应用等专题的英文原著,学习相关知识。
    部分参考书目
    ◆ Duda R. O., Hart P. E., Stork D. G., Pattern Classification, 2nd Edition
    ◇ K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd Edition
    ◆ Theodoridis S., Koutroumbas K., Pattern Recognition, 4th Edition
    ◇ S. Theodoridis, A. Pikrakis, K. Koutroumbas, D. Cavouras
    Introduction to Pattern Recognition: A MATLAB® Approach
    ◇ A. R. Webb, Statistical Pattern Recognition, 2nd Edition
    ◇ J. P. Marques de Sá, Pattern Recognition: Concepts, Methods and Applications
    ◆ Aapo Hyvärinen, Juha Karhunen, Erkki Oja, Independent Component Analysis
    ◇ I. T. Jolliffe, Principal Component Analysis, 2nd Edition
    ◇ Sing Tze Bow, Pattern Recognition and Image Preprocessing, 2nd Edition
    ◇ M. S. Nixon, A. S. Aguado,
    Feature Extraction and Image Processing, 2nd Edition
    ◆ Sonka M., Glavac V., Boyle R.,
    Image Processing, Analysis, and Machine Vision, 3rd Edition
    ◆ Vapnik V. N., Statistical Learning Theory
    3
    ◆ Vapnik V. N., The Nature of Statistical Learning Theory, 2nd Edition
    ◇ Christopher M. Bishop, Pattern Recognition and Machine Learning
    ◆ T. M. Mitchell, Machine Learning
    ◇ Ethem Alpaydın, Introduction to Machine Learning, 2nd Edition
    ◆ Nello Cristianini and John Shawe-Taylor,
    An Introduction to Support Vector Machines and
    Other Kernel-based Learning Methods
    ◇ John Shawe-Taylor and Nello Cristianini,
    Kernel Methods for Pattern Analysis
    ◇ Ingo Steinwart and Andreas Christmann, Support Vector Machines
    ◇ McLachlan G. J., Krishnan T., The EM Algorithm and Extensions, 2nd Edition
    ◇ Stanley Osher, Nikos Paragios, (Editors)
    Geometric Level Set Methods in Imaging, Vision, and Graphics
    ◇ Suri J., Laxminarayan S.,
    PDE and Level Sets: Algorithmic Approaches to Static and Motion Imagery
    ◇ Gilles Aubert, Pierre Kornprobst.,
    Mathematical Problems in Image Processing:
    Partial Differential Equations and the Calculus of Variations, 2nd Edition
    ◇ Teuvo Kohonen, Self-Organizing Maps, 3rd Edition
    四、计算机视觉导论
    大约需要4~6 个月时间(201X 年XX 月XX 日——201X 年XX 月XX 日)
    1.学习《计算机图形学基础》,完成相应的习题。
    2.研读《Computer Vision: A Modern Approach》。
    3.掌握OpenCV 编程,至少完成程序设计题目5 个、课程项目1 个。
    部分参考书目
    ◆ Peter Shirley, Fundamentals of Computer Graphics, 2nd Edition
    ◇ L.G. Shapiro and G.C. Stockman, Computer Vision
    ◆ R. Jain, R. Kasturi and B. G. Schunck, Machine Vision
    ◆ David Marr's Vision: A Computational Investigation into the Human
    Representation and Processing of Visual Information
    ◆ Dana Ballard and Chris Brown's Computer Vision
    ◇ Christian Wöhler, 3D Computer Vision: Efficient Methods and Applications
    ◇ Emanuele Trucco, Alessandro Verri,
    Introductory Techniques for 3-D Computer Vision
    ◇ E.R. Davies, Machine Vision, 3rd Edition
    ◇ Richard Szeliski, Computer Vision: Algorithms and Applications
    ◆ Wesley E. Snyder and Hairong Qi, Machine Vision
    ◆ Gary Bradski and Adrian Kaehler,
    Learning OpenCV: Computer Vision with the OpenCV Library
    4
    第二阶段研修任务主要有以下几项内容:
    一、选择并确定数字图像技术或计算机视觉及其应用的某个领域为主攻方向;
    二、阅读文献、撰写综述、制作演示文稿并在一定范围内作研究开题报告;
    三、开展研究并撰写研究论文(基本要求为能在国内核心刊物上公开发表);
    四、申请相应级别的研究课题或报考博士研究生。
    附注:
    1. 对于硕士层次的研修,带有灰色背景的内容为可选,包括数字图像分析
    与理解高级课程中的4~6 三项。课程内容基本上是按照下面的三个层次安排的:
    图像处理: image in → image out
    图像分析: image in → measurements out
    图像理解: image in → high-level description out
    2. 在研修中使用MATLAB 等工具也是一种不错的选择(可节省试验时间)。
    3. 计算机视觉阶段的研修时间暂定为4~6个月时间,确切时间取决于学生是
    否需要补习计算机图形学知识以及一些数学知识,如射影几何、矩阵与张量代数、
    模型估计等。
    4. 这份建议比较适合自动化、计算机科学与技术专业毕业的学生,并且要
    求学生的数理基础也比较好,特别是对相关的数学分支、以及计算智能感兴趣。
    5. 标记为◆的参考书可能有影印版或中文翻译版。
    展开全文
  • 在跑算法的时候最适合答题了呢(害羞脸图像处理说到底是一门数学和实践结合的学科。所以要搞算法,数学基础必不可少,同时工程实践性的话,编程能力不能弱。二者不可偏废。我向来推崇以练促学,...
  • 给出了一种基于USB2.0 的视频图像处理芯片的实现方案,首先介绍了系统的整体设计框架,然后针对框架内核心模块阐述了相应的硬件实现原理,最后以Xilinx FPGA 开发板系列ML-506(核心芯片Virtex-5 XC5VSX50T FFG1136...
  • 图像的保存形式 一幅图像,经过取样和量化之后就可以得到一幅数字图像。数字图像在在保存时,都是由单一的像素保存在...数字图像处理的基本操作,有些需要在空间域中进行,而另外的一些则需要在变换域中进行。 空间域:
  • 计算机视觉和图像处理框架一、概述图像处理即传感器将图像信号转换为数字信号,再利用计算机对其进行加工处理的过程。其涉及到的方法主要有图像变换、图像编码、图像去噪、图像增强、图像恢复、图像分割、特征提取、...
  • 图像处理库综述

    2016-08-05 14:00:42
    当需要做一些图像处理方面的学习和研究的时候,首要任务就是选择一套合适的图像处理类库,本文主要简单介绍下各家图像库的一些优缺点。不足之处,还请大家多多提建议,多谢!欢迎微信关注公众号“智能算法”,带您...
  • 视频图像处理

    2018-07-24 13:27:39
    众所周知的CNN网络对于图像的空间域的处理具有很好的效果,在单张图像的分类分割目标检测等问题上表现出了很好的效果。很多人或许有和我之前一样的疑问,既然单张图像上做的效果已经达到state-of-art的效果,为什么...
  • 虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章...
  • Matlab计算机视觉/图像处理工具箱推荐 2014年4月9日机器学习MATLAB, 计算机视觉luffylee 计算机视觉/图像处理研究中经常要用到Matlab,虽然其自带了图像处理和计算机视觉的许多功能,但是术业有专攻,在进行...
  • 数字图像处理第八章数字图像处理---图像压缩(一) 背景(二) 编码冗余2.1 霍夫曼码2.2 霍夫曼编码2.3 霍夫曼译码(三)空间冗余(四)不相关的信息(五)JPEG 压缩5.1 JPEG5.2 JPEG 2000(六)视频压缩6.1 MATLAB...
  • 图像处理实用资源

    2014-03-01 21:47:23
    图像处理实用资源本文转自:http://www.cnblogs.com/tornadomeet/archive/2012/05/24/2515980.html跟OpenCV相关的:http://opencv.org/2012年7月4日随着opencv2.4.2版本的发布,opencv更改了其最新的官方网站地址。...
  • 图像处理与计算机视觉:基础,经典以及最近发展 xdyang的图像视觉小屋 图像处理与计算机视觉经典论文(6) 图像处理与分析(10) 计算机视觉(8) 模式识别和机器学习(12) [置顶] 图像...
  • 图像处理专业英语

    2018-02-08 10:41:15
    本文整合自:(1)wyx100 http://blog.csdn.net/wyx100/article/details/74635853(2)刘关张 http://blog.csdn.net/liu_guanzhang/article/details/20708115非常感谢二位!!!AAAN (Active Appearance Model)...
  • 机器学习(ML)、深度学习(DL)和图像处理(opencv)专用英语词典 百度翻译 http://fanyi.baidu.com/ A AAN (Active Appearance Model)主动外观模型 Adam(adaptive moment estimation,适应性矩估计),Adam是一...
  • (1) 国际会议 通常,国际上计算机视觉方面的三大国际会议是ICCV, CVPR和ECCV,统称之为ICE。 ICCV,International ...【收录论文的内容:底层视觉与感知,颜色、光照与纹理处理,分割与聚合,运动与跟踪,立
1 2 3 4 5 ... 20
收藏数 19,781
精华内容 7,912
关键字:

图像处理ml