图像处理模式识别区别

2015-08-31 16:51:14 snakorse 阅读数 17583
  • 在我的理解里,要实现计算机视觉必须有图像处理的帮助,而图像处理倚仗与模式识别的有效运用,而模式识别是人工智能领域的一个重要分支,人工智能与机器学习密不可分。纵观一切关系,发现计算机视觉的应用服务于机器学习。各个环节缺一不可,相辅相成。

    计算机视觉(computer vision),用计算机来模拟人的视觉机理获取和处理信息的能力。就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。

    图像处理(image processing),用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。基本内容图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组,该数组的元素称为像素,其值为一整数,称为灰度值。图像处理技术的主要内容包括图像压缩,增强和复原,匹配、描述和识别3个部分。常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。图像处理一般指数字图像处理。

    模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。应用计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别,称为模式信息。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。

    机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统,但是以往的智能系统都普遍缺少学习的能力。随着人工智能的深入发展,这些局限性表现得愈加突出。正是在这种情形下,机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。

    人类研究计算机的目的,是为了提高社会生产力水平,提高生活质量,把人从单调复杂甚至危险的工作中解救出来。今天的计算机在计算速度上已经远远超过了人,然而在很多方面,特别是在人类智能活动有关的方面例如在视觉功能、听觉功能、嗅觉功能、自然语言理解能力功能等等方面,还不如人。

    这种现状无法满足一些高级应用的要求。例如,我们希望计算机能够及早地发现路上的可疑情况并提醒汽车驾驶员以避免发生事故,我们更希望计算机能帮助我们进行自动驾驶,目前的技术还不足以满足诸如此类高级应用的要求,还需要更多的人工智能研究成果和系统实现的经验。

    什么是人工智能呢?人工智能,是由人类设计并在计算机环境下实现的模拟或再现某些人智能行为的技术。一般认为,人类智能活动可以分为两类:感知行为与思维活动。模拟感知行为的人工智能研究的一些例子包括语音识别、话者识别等与人类的听觉功能有关的“计算机听觉”,物体三维表现的形状知识、距离、速度感知等与人类视觉有关的“计算机视觉”,等等。模拟思维活动的人工智能研究的例子包括符号推理、模糊推理、定理证明等与人类思维有关的“计算机思维”,等等。

    从图像处理和模式识别发展起来的计算机视觉研究对象之一是如何利用二维投影图像恢复三维景物世界。计算机视觉使用的理论方法主要是基于几何、概率和运动学计算与三维重构的视觉计算理论,它的基础包括射影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。计算机视觉要达到的基本目的有以下几个:

    (1) 根据一幅或多幅二维投影图像计算出观察点到目标物体的距离;

    (2) 根据一幅或多幅二维投影图像计算出目标物体的运动参数;

    (3) 根据一幅或多幅二维投影图像计算出目标物体的表面物理特性;

    (4) 根据多幅二维投影图像恢复出更大空间区域的投影图像。

    计算机视觉要达到的最终目的是实现利用计算机对于三维景物世界的理解,即实现人的视觉系统的某些功能。

    在计算机视觉领域里,医学图像分析、光学文字识别对模式识别的要求需要提到一定高度。又如模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的电脑视觉应用或许可以成真。

    人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

    机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。

    为了达到计算机视觉的目的,有两种技术途径可以考虑。第一种是仿生学方法,即从分析人类视觉的过程入手,利用大自然提供给我们的最好参考系——人类视觉系统,建立起视觉过程的计算模型,然后用计算机系统实现之。第二种是工程方法,即脱离人类视觉系统框框的约束,利用一切可行和实用的技术手段实现视觉功能。此方法的一般做法是,将人类视觉系统作为一个黑盒子对待,实现时只关心对于某种输入,视觉系统将给出何种输出。这两种方法理论上都是可以使用的,但面临的困难是,人类视觉系统对应某种输入的输出到底是什么,这是无法直接测得的。而且由于人的智能活动是一个多功能系统综合作用的结果,即使是得到了一个输入输出对,也很难肯定它是仅由当前的输入视觉刺激所产生的响应,而不是一个与历史状态综合作用的结果。

    不难理解,计算机视觉的研究具有双重意义。其一,是为了满足人工智能应用的需要,即用计算机实现人工的视觉系统的需要。这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”的能力。其二,视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。

原文链接:http://shijuanfeng.blogbus.com/logs/216968430.html
2016-10-27 16:53:46 linghugoogle 阅读数 2630

《模式识别及其在图像处理中的应用》

1、模式识别基本框架

一般认为,模式识别是通过具体的事物进行观测所得到的具有时间、空间分布的信息,模式所属的类别或同一类中模式的总体成为模式类,其中个别具体的模式往往成为样本。

样本——预处理——特征选择和提取——分类器设计&&分类结果

【由上述分析可知,模式识别本身就是将特征空间映射为选择空间,将多维特征降维以减小复杂度,增加鲁棒性】

2、特征提取和选择

特征提取是指通过映射的方法用低维空间来表示样本的过程,特征提取后样本的可分性应该更好。常用方法:主元分析(PCA)、线性判别分析、核函数主元分析(Kernel PCA)、独立主元分析(ICA)、自组织映射(SOM)

特征提取后的各个特征的物理意义有时不是很明确,往往很难看出各个特征对分类器的影响,有的甚至有副作用。因此要在这些特征中选择一部分,这就是特征选择。

为了判断提取和选择的特征对分类的有效性,人们提出各种衡量特征分类性能的判据。最直接最有效的盘踞是计算分类器错误概率,但很难实现。最简单的判据是用于可用性判据的类内类间距离判据。

【由上述分析可知,提取和选择对算法性能有决定性的作用,具体操作上既可以通过有监督学习、也可以无监督的聚类分析;除此之外,判断标准很重要,只有有了判断标准,才能够对选择的算法进行衡量和改进,这是反馈】

3、模式识别的主要方法及其在图像处理中的应用

1)     统计决策法

以概率论和数理统计为基础,包括参数法和非参数法。参数法以Bayes决策准则为指导,其中最小错误率和最小风险贝叶斯决策是最常用的决策方法。参数估计方法在样本数据趋于无穷大时渐进理论,然而实际条件往往达不到。在样本数量有限的时候,往往根据样本直接设计分类器,这就是非参数方法。这类方法物理意义直观,但所得的结果和错误率往往没有直接联系。所设计的分类器不能保证最优。比较典型的有线性分类器、最近邻方法、K均值聚类发。

缺点:缺少结构信息。

2)     结构模式分析

利用模式的结构描述与句法描述之间的相似性对模式进行分类,每个模式由它的各个子部分(称为子模式或者模式基元)的组合来表示。对模式的识别常以句法分析的方式进行,即依据给定的一组句法规则来剖析模式的结构。当模式中的每一个基元被分辨出来后,识别过程就可通过执行语法分析来实现。

3)     模糊模式识别

将非此即彼的0,1判断更改为隶属度函数。模糊模式识别的关键在隶属度函数的建立,目前的主要方法有模糊统计、模糊分布法、二元对比排序法、相对比较法和专家评分法。

4)     人工神经网络模式识别

定义:用软件或者硬件的方法,建立许多以大量处理单元为结点,处理单元实现(加权值的)互联的拓扑网络,进行模拟。

主要特点:信息处理的并行性、自组织和自适应性、具有很强的学习能力和联想功能以及容错性能。

4、模式识别的新进展及其在图像处理中的应用

1)     支持向量机

2)     仿生模式识别

【这是篇2004年的论文,并且文章是综述,所以对SVM和仿生模式讲得不是很清楚,接下来找些SVM的论文研究研究】

 

《模式识别方法概论》

【这是篇2012年的文章,讲的内容很多与上面的文章有重复,所以不再每小节摘录,只摘录感觉写得好的地方】

1、为提高识别结果的可靠性,往往需要加入知识库(规则)以对可能产生的错误进行修正,或者引入限制条件大大缩小待识别特征在模型库的搜索空间。

2、SVM基本思想:先在样本空间或特征空间,构造出最优超平面,使得超平面与不同类样本之间的距离最大,从而达到最大的泛化能力。



2015-07-05 11:53:22 gdut2015go 阅读数 18778

图像模式识别

1.1图像模式识别的方法

    图像模式识别的方法很多,从图像模式识别提取的特征对象来看,图像识别方法可分为以下几种:基于形状特征的识别技术、基于色彩特征的识别技术以及基于纹理特征的识别技术。其中,基于形状特征的识别方法,其关键是找到图像中对象形状及对此进行描述,形成可视特征矢量,以完成不同图像的分类,常用来表示形状的变量有形状的周长、面积、圆形度、离心率等。基于色彩特征的识别技术主要针对彩色图像,通过色彩直方图具有的简单且随图像的大小、旋转变换不敏感等特点进行分类识别。基于纹理特征的识别方法是通过对图像中非常具有结构规律的特征加以分析或者则是对图像中的色彩强度的分布信息进行统计来完成。

从模式特征选择及判别决策方法的不同可将图像模式识别方法大致归纳为两类:统计模式(决策理论)识别方法和句法(结构)模式识别方法。此外,近些年随着对模式识别技术研究的进一步深入,模糊模式识别方法和神经网络模式识别方法也开始得到广泛的应用。在此将这四种方法进行一下说明。


1.1.1句法模式识别

    对于较复杂的模式,如采用统计模式识别的方法,所面临的一个困难就是特征提取的问题,它所要求的特征量十分巨大,要把某一个复杂模式准确分类很困难,从而很自然地就想到这样的一种设计,即努力地把一个复杂模式分化为若干较简单子模式的组合,而子模式又分为若干基元,通过对基元的识别,进而识别子模式,最终识别该复杂模式。正如英文句子由一些短语,短语又由单词,单词又由字母构成一样。用一组模式基元和它们的组成来描述模式的结构的语言,称为模式描述语言。支配基元组成模式的规则称为文法。当每个基元被识别后,利用句法分析就可以作出整个的模式识别。即以这个句子是否符合某特定文法,以判别它是否属于某一类别。这就是句法模式识别的基本思想。

     句法模式识别系统主要由预处理、基元提取、句法分析和文法推断等几部分组成。由预处理分割的模式,经基元提取形成描述模式的基元串(即字符串)。句法分析根据文法推理所推断的文法,判决有序字符串所描述的模式类别,得到判决结果。问题在于句法分析所依据的文法。不同的模式类对应着不同的文法,描述不同的目标。为了得到于模式类相适应的文法,类似于统计模式识别的训练过程,必须事先采集足够多的训练模式样本,经基元提取,把相应的文法推断出来。实际应用还有一定的困难。


1.1.2统计模式识别

统计模式识别是目前最成熟也是应用最广泛的方法,它主要利用贝叶斯决策规则解决最优分类器问题。统计决策理论的基本思想就是在不同的模式类中建立一个决策边界,利用决策函数把一个给定的模式归入相应的模式类中。统计模式识别的基本模型如图2,该模型主要包括两种操作模型:训练和分类,其中训练主要利用己有样本完成对决策边界的划分,并采取了一定的学习机制以保证基于样本的划分是最优的;而分类主要对输入的模式利用其特征和训练得来的决策函数而把模式划分到相应模式类中。

统计模式识别方法以数学上的决策理论为基础建立统计模式识别模型。其基本模型是:对被研究图像进行大量统计分析,找出规律性的认识,并选取出反映图像本质的特征进行分类识别。统计模式识别系统可分为两种运行模式:训练和分类。训练模式中,预处理模块负责将感兴趣的特征从背景中分割出来、去除噪声以及进行其它操作;特征选取模块主要负责找到合适的特征来表示输入模式;分类器负责训练分割特征空间。在分类模式中,被训练好的分类器将输入模式根据测量的特征分配到某个指定的类。统计模式识别组成如图2所示。


1.1.2.1几种统计模式识别的方法

统计模式识别根据采用方法的不同可以进行多种形式的分类:通过贝叶斯决策理论对条件密度已知的样本进行分类;对于类条件密度不明的情况,可根据训练样本的类别是否己知将分类问题分为监督学习和非监督学习两大类;监督学习和非监督学习又可根据是否通过参数决策分为参数估计和非参数估计。统计模式识别的另一种分类方法是根据决策界是否直接得到将其分为几何方法和基于概率密度的方法。几何方法经常直接从优化一定的代价函数构造决策界;而基于概率密度的方法要首先估计密度函数然后构造分类函数指定决策界。

1、几何分类法

1)模板匹配法

它是模式识别中的一个最原始、最基本的方法,它将待识模式分别与各标准模板进行匹配,若某一模板与待识模式的绝大多数单元均相匹配,则称该模板与待识模式“匹配得好”,反之则称“匹配得不好”,并取匹配最好的作为识别结果。

2)距离分类法

距离是一种重要的相似性度量,通常认为空间中两点距离越近,表示实际上两样本越相似。大约有十余种作为相似性度量的距离函数,其中使用最广泛的是欧氏距离。它是使用最为广泛的方法,常用的有平均样本法、平均距离法、最近邻法和K-近邻法。

3)线性判别函数

和上述的方法不同,判决函数法是以判决边界的函数形式的假定为其特性的,而上述的方法都是以所考虑的分布的假定为其特性的。假如我们有理由相信一个线性判决边界取成:


是合适的话,那么剩下的问题就是要确定它的权系数。权系数可通过感知器算法或最小平方误差算法来实现。但作为一条规则,应用此方法必须注意两点;第一就是方法的可适性问题,第二就是应用判决函数后的误差准则。

4)非线性判别函数

线性判决函数的特点是简单易行,实际应用中许多问题往往是非线性的,一种处理的办法将非线性函数转换为线性判决函数,所以又称为广义线性判决函数。另一种方法借助电场的概念,引入非线性的势函数,它经过训练后即可用来解决模式的分类问题。


2  概率分类法

    几何分类法是以模式类几何可分为前提条件的,在某些分类问题中这种条件能得到满足,但这种条件并不经常能得到满足,模式的分布常常不是几何可分的,即在同一区域中可能出现不同的模式,这时,必须借助概率统计这一数学工具。可以说,概率分类法的基石是贝叶斯决策理论。

    设有R类样本,分别为w1, w2 , … , wR,若每类的先验概率为P(wii), i =  1,2 ,3,…R,对于一随机矢量X,每类的条件概率为(又称类概率密度)P(X/Wii),则根据Bayes公式,后验概率为:


从后验概率出发,有Bayes法则: 



1.1.2.2朴素贝叶斯分类器

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的工作过程如下:

(1)每个数据样本用一个n维特征向量表示,分别描述对n个属性A1,A2,…An样本的n个度量。

(2)假定有m个类C1,C2,…Cm。给定一个未知的数据样本X(即没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即是说,朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当


这样,最大化。其最大的类Ci称为最大后验假定。根据贝叶斯定理


(3)由于P(X)对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=…=P(Cm)。并据此只对最大化。否则,最大化。注意,类的先验概率可以用计算其中si是类Ci中的训练样本数,而s是训练样本总数。

(4)给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,


概率…可以由训练样本估值,其中

(a)如果Ak是分类属性,则,其中sik是在属性Ak上具有值xk的类Ci的样本数,而si是Ci中的训练样本数。

(b)如果Ak是连续值属性,则通常假定该属性服从高斯分布,因而,


其中,给定类Ci的训练样本属性Ak的值,是属性Ak的高斯密度函数,而分别为平均值和标准差。

(5)为对未知样本X分类,对每个类Ci,计算。样本X被指派到类Ci,当且仅当


换言之,X被指派到其最大的类Ci

整个朴素贝叶斯分类分为三个阶段:

    第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

    第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

    第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

 

半朴素贝叶斯分类模型(SNBC)

为了突破朴素贝叶斯分类器的独立性假设条件的限制,除了上述“提升”等方法之外,还可以通过改变其结构假设的方式来达到目的,为此有人提出了半朴素贝叶斯分类(SNBG Semi-NaiveBayesian classifier)的构想。

半朴素贝叶斯分类模型对朴素贝叶斯分类模型的结构进行了扩展,其目的是为了突破朴素贝叶斯分类模型特征属性间独立性假设限制,提高分类性能。目前半朴素贝叶斯分类模型学习的关键是如何有效组合特片属性。条件互信息度量半朴素贝叶斯分类学习算法可以解决目前一此学习算法中存在的效率小高及部分组合意义不大的问题。SNBC的结构比NBC紧凑,在SNBC的模型构建过程中,依照一定的标准将关联程度较大的基本属性(即NBC中的特征属性)合并在一起构成“组合属性”(也称之为“大属性”)。逻辑上,SNBC中的组合属性与NBC中的基本属性没有根本性差别,SNBC的各个组合属性之间也是相对于类别属性相互独立的。图是SNBC的模型示意图。

这类模型通过将依赖性强的基本属性结合在一起构建新的模型,这样可以部分屏蔽NBC中独立性假设对分类的负面作用。但从名称可以看出,SNBC依然属于朴素贝叶斯分类的范畴。这是因为除了结构上的差别之外,计算推导过程与NBC无异。


1.1.2.3图像金字塔

图像金字塔是以多分辨率来解释图像的一种结构。1987年,在一种全新而有效的信号处理与分析方法,即多分辨率理论中,小波首次作为分析基础出现了。多分辨率理论将多种学科的技术有效地统一在一起,如信号处理的子带编码、数字语音识别的积分镜像过滤以及金字塔图像处理。正如其名字所表达的,多分辨率理论与多种分辨率下的信号(或图像)表示和分析有关。其优势很明显,某种分辨率下无法发现的特性在另一种分辨率下将很容易被发现。

图像金字塔是结合降采样操作和平滑操作的一种图像表示方式。它的一个很大的好处是,自下而上每一层的像素数都不断减少,这会大大减少计算量;而缺点是自下而上金字塔的量化变得越来越粗糙,而且速度很快。

高斯金字塔里有两个概念:组(Octave)和层(Level或Interval),每组里有若干层。高斯金字塔的构造是这样的,第一组的第一层为原图像,然后将图像做一次高斯平滑(高斯卷积、高斯模糊),高斯平滑里有一个参数σ,然后将σ乘一个比例系数k作为新的平滑因子来平滑第一组第二层得到第三层。重复若干次,得到L层他们分别对应的平滑参数为:0,σ,kσ,k2σ,……。然后将最后一幅图像做比例因此为2的降采样得到第二组的第一层,然后对第二组的第一层做参数是σ的高斯平滑,对第二层做kσ的平滑得到第三层,以此类推。每组对应的平滑因子是一样的,这样反复形成了O组L层,组建成高斯金字塔。

2.1.3模糊模式识别

    模糊模式识别的理论基础是20世纪60年代诞生的模糊数学,它根据人对事物识别的思维逻辑,结合人类大脑识别事物的特点,将计算机中常用的二值逻辑转向连续逻辑。在图像识别领域应用时该方法可以简化图像识别系统,并具有实用、可靠等特点。

    模式识别是一门边缘学科,它和许多技术学科有着密切的联系,它本身就是人工智能的重要组成部分,因此,从本质上来说,模式识别所要讨论的核心问题,就是如何使机器能模拟人脑的思维方法,来对客观事物进行有效的识别和分类。一方面现有的广为运用的统计模式识别方法与人脑进行模式识别相比,其差别还很大,另一方面待识别的客观事物又往往具有不同程度的模糊性。

    不少学者试图运用模糊数学的方法来解决模式识别问题,形成一个专门的研究领域----模糊模式识别(Fuzzy Pattern Recognition)。比较成熟的理论和方法有最大来属原则、基于模糊等价关系的模式分类、基于模糊相似关系的模式分类和模糊聚类,其中模糊聚类方法的研究和应用尤为成功和广泛。目前,模糊模式识别方法已广泛应用图形识别、染色体和白血球识别、图象目标的形状分析、手写体文字识别等,但其中也遇到不少困难,其中一个典型的例子就是隶属函数的确定往往带有经验色彩。

    应用模糊方法进行图像识别的关键是确定某一类别的隶属函数,而各类的统计指标则要由样本像元的灰度值和样本像元的隶属函数的值即隶属度共同决定。隶属度表示对象隶属某一类的程度。

 

1.1.4神经网络模式识别

    神经网络的研究始于20世纪40年代,上世纪80年代开始在各国广泛兴起,神经网络模式识别源于对动物神经系统的研究,通过采用硬件或软件的方法,建立了许多以大量处理单元为结点,各单元通过一定的模式实现互联的拓扑网络。该网络通过一定的机制,能够模仿人的神经系统的结构和功能。

神经网络是一种全新的模式识别技术,它具有以下几个方面的特点:

(1)神经网络具有分布式存储信息的特点。

(2)神经元能够独立运算和处理收到的信息,即系统能够并行处理输入的信息。

(3)具有自组织、自学习的能力。

 



2013-12-01 11:05:18 Adolph_Chou 阅读数 3925

(先汇总,后续整理)

三者之间既有区别,又有联系。 

计算机图形学是给定关于景象结构、表面反射特性、光源配置及相机模型的信息,生成图像。 
而计算机视觉是给定图象,推断景象特性实现的是从模型到图像的变换,也就是说从图象数据提取信息,包括景象的三维结构,运动检测,识别物体等。 
模式识别则是从特征空间到类别空间的变换。研究内容包括特征提取(PCA,LDA,LFA,Kernel,Mean Shift,SIFT,ISOMAP,LLE);特征选择;分类器设计(SVM,AdaBoost)等。 

总之,计算机图形学是计算机视觉的逆问题,两者从最初相互独立的平行发展到最近的融合是一大趋势。图像模式的分类是计算机视觉中的一个重要问题,模式识别中的许多方法可以应用于计算机视觉中。

图形学讲的是图形,也就是图形的构造方式,是一种从无到有的概念,从数据得到图像。

数字图像处理是对已有的图像进行变换、分析、重构,得到的仍是图像。

PR本质就是分类,根据常识或样本或二者结合进行分类,可以对图像进行分类,从图像得到数据。


Computer Graphics和Computer Vision是同一过程的两个方向。Computer Graphics将抽象的语义信息转化成图像,Computer Vision从图像中提取抽象的语义信息。Image Processing探索的是从一个图像或者一组图像之间的互相转化和关系,与语义信息无关。

先说区别:
Computer Graphics,简称 CG 。输入的是对虚拟场景的描述,通常为多边形数组,而每个多边形由三个顶点组成,每个顶点包括三维坐标、贴图坐标、rgb颜色等。输出的是图像,即二维像素数组。
Computer Vision,简称 CV。输入的是图像或图像序列,通常来自相机或usb摄像头。输出的是对于图像序列对应的真实世界的理解,比如检测人脸、识别车牌。
Digital Image Processing,简称 DIP。输入的是图像,输出的也是图像。Photoshop中对一副图像应用滤镜就是典型的一种图像处理。常见操作有模糊、灰度化、增强对比度等。

再说联系:
CG 中也会用到 DIP,现今的三维游戏为了增加表现力都会叠加全屏的后期特效,原理就是 DIP,只是将计算量放在了显卡端。
CV 更是大量依赖 DIP 来打杂活,比如对需要识别的照片进行预处理。
最后还要提到近年来的热点——增强现实(AR),它既需要 CG,又需要 CV,当然也不会漏掉 DIP。它用 DIP 进行预处理,用 CV 进行跟踪物体的识别与姿态获取,用 CG 进行虚拟三维物体的叠加。

简单点说吧,1 计算机视觉,里面人工智能的东西更多一些,不仅仅是图像处理的知识,还涵盖了人工智能,机器学习等领域知识;2,计算机图形学,主要涉及图形成像及游戏类开发,如opengl等,还有就是视频渲染等;3,图像处理,这个主要针对图像图像的基本处理,如图像检索或则图像识别,压缩,复原等等操作。以上只是本人字面理解


计算机图形学和数字图像处理是比较老的技术。计算机视觉要迟几十年才提出。
计算机图形学和数字图像处理的区别在于图形和图像。
图形是矢量的、纯数字式的。图像常常由来自现实世界的信号产生,有时也包括图形。
而图像和图形都是数据的简单堆积,计算机视觉要从图像中整理出一些信息或统计数据,也就是说要对计算机图像作进一步的分析。
以上是它们的区别,下面来说联系:
计算机图形学的研究成果可以用于产生数字图像处理所需要的素材,计算机视觉需要以数字图像处理作为基础。计算机视觉与数字图像处理的这种关系类似于物理学和数学的关系。

你可以多看看浙大周昆的文章,周昆是计算机图形学这个领域的领军人物
另外,你如果不是浙江大学的或者中科院计算所的,不建议做这个方向,难度太大(图形比图像虽然表面上只高一维,但实际上工作量大了好多倍;其次,图像,国内外差距目前已经很小,好发重要期刊;图形,除上面两个单位和微软外,国内外差距很大,不好发重要期刊)


数字图像处理主要是对已有的图像,比如说可见光的图像、红外图像、雷达成像进行噪声滤除、边缘检测、图像恢复等处理,就像用ps 处理照片一样的。人脸识别啊、指纹识别啊、运动物体跟踪啊,都属于图像处理。去噪有各种滤波算法;其他的有各种时频变化算法,如傅里叶变化,小波变换等,有很多这方面的书籍。
图形学主要研究如何生成图形的,像用autoCAD作图,就是图形学中算法的应用。各种动漫软件中图形算法的生成等。

2012-04-17 23:19:14 xiaojiang0805 阅读数 10330

最近一直研究图像处理与模式识别的问题,通过同高手的交流,结合牛人的指点,现把自己的感受和体会跟大家分享,尤其是目标检测与识别这一块,如有不对的地方,希望高手指点一下!

 

如果有读关于目标检测和识别西文文献比较多的朋友,一定能够发现大多数的文献检测和识别的目标都是如下两类:人脸、汽车。但是对于类内差异较大的物体类,研究其检测与识别的文献并不多见。由此,引发了我的几点思考,和诸位共享。
首先:人脸是一类类内差异很小的目标,什么叫类内差异呢?我们可以这样理解:就是说它的configuration是不变的。不管是什么人种,都是两眼一鼻一嘴构成,因此对他的检测,采用模板匹配、Hmm、 基于Fragment的方法都可以达到较好的效果。然而,我们会发现,对人脸的识别研究的方法就寥寥可数了。人脸对于识别来说,他的类内差异就是相当大。目前在工程上最为有效的方法就是模板匹配,图像中的人脸和人脸库中的图像一一匹配,相似度最大的即为该人。同样,汽车也是一类类内差异不大的物体,它的显著且不变性特征就是车轮。车身可能万变,但车轮都如出一辙。因此,在图像中若能较好的检测出车轮,也就能检测到车辆了。


其次:为什么研究其他类目标的文献并不多见呢?难度大。难度大的原因就是要找出恒一不变的特征很难。比如:刚性物体——水杯。水杯的种类万千,要找出他们的共性不容易。柔性物体之类的则更加了。比如:检测树。


最后:给出我的一点研究启发:

          第一,在研究课题之前,一定要选择好研究的图像目标。其实也可以是大家都在研究的一类物体,并不需要标新立异,当然如果你有针对这类目标的好的检测方法,那也是惟愿如此。

         第二,并不一定要求你的方法放之四海皆准,只需要对某一类目标有效果,你同样可以发高水平的文章。

         第三,多尝试从数学的角度去理解图像的机理,从美术家的角度去理解图像的构造。

 

图像处理与识别

阅读数 9027