图像处理和模式识别专业

2015-08-31 16:51:14 snakorse 阅读数 17583
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看
  • 在我的理解里,要实现计算机视觉必须有图像处理的帮助,而图像处理倚仗与模式识别的有效运用,而模式识别是人工智能领域的一个重要分支,人工智能与机器学习密不可分。纵观一切关系,发现计算机视觉的应用服务于机器学习。各个环节缺一不可,相辅相成。

    计算机视觉(computer vision),用计算机来模拟人的视觉机理获取和处理信息的能力。就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。

    图像处理(image processing),用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。基本内容图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组,该数组的元素称为像素,其值为一整数,称为灰度值。图像处理技术的主要内容包括图像压缩,增强和复原,匹配、描述和识别3个部分。常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。图像处理一般指数字图像处理。

    模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。应用计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别,称为模式信息。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。

    机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统,但是以往的智能系统都普遍缺少学习的能力。随着人工智能的深入发展,这些局限性表现得愈加突出。正是在这种情形下,机器学习逐渐成为人工智能研究的核心之一。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。

    人类研究计算机的目的,是为了提高社会生产力水平,提高生活质量,把人从单调复杂甚至危险的工作中解救出来。今天的计算机在计算速度上已经远远超过了人,然而在很多方面,特别是在人类智能活动有关的方面例如在视觉功能、听觉功能、嗅觉功能、自然语言理解能力功能等等方面,还不如人。

    这种现状无法满足一些高级应用的要求。例如,我们希望计算机能够及早地发现路上的可疑情况并提醒汽车驾驶员以避免发生事故,我们更希望计算机能帮助我们进行自动驾驶,目前的技术还不足以满足诸如此类高级应用的要求,还需要更多的人工智能研究成果和系统实现的经验。

    什么是人工智能呢?人工智能,是由人类设计并在计算机环境下实现的模拟或再现某些人智能行为的技术。一般认为,人类智能活动可以分为两类:感知行为与思维活动。模拟感知行为的人工智能研究的一些例子包括语音识别、话者识别等与人类的听觉功能有关的“计算机听觉”,物体三维表现的形状知识、距离、速度感知等与人类视觉有关的“计算机视觉”,等等。模拟思维活动的人工智能研究的例子包括符号推理、模糊推理、定理证明等与人类思维有关的“计算机思维”,等等。

    从图像处理和模式识别发展起来的计算机视觉研究对象之一是如何利用二维投影图像恢复三维景物世界。计算机视觉使用的理论方法主要是基于几何、概率和运动学计算与三维重构的视觉计算理论,它的基础包括射影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。计算机视觉要达到的基本目的有以下几个:

    (1) 根据一幅或多幅二维投影图像计算出观察点到目标物体的距离;

    (2) 根据一幅或多幅二维投影图像计算出目标物体的运动参数;

    (3) 根据一幅或多幅二维投影图像计算出目标物体的表面物理特性;

    (4) 根据多幅二维投影图像恢复出更大空间区域的投影图像。

    计算机视觉要达到的最终目的是实现利用计算机对于三维景物世界的理解,即实现人的视觉系统的某些功能。

    在计算机视觉领域里,医学图像分析、光学文字识别对模式识别的要求需要提到一定高度。又如模式识别中的预处理和特征抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的电脑视觉应用或许可以成真。

    人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

    机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。

    为了达到计算机视觉的目的,有两种技术途径可以考虑。第一种是仿生学方法,即从分析人类视觉的过程入手,利用大自然提供给我们的最好参考系——人类视觉系统,建立起视觉过程的计算模型,然后用计算机系统实现之。第二种是工程方法,即脱离人类视觉系统框框的约束,利用一切可行和实用的技术手段实现视觉功能。此方法的一般做法是,将人类视觉系统作为一个黑盒子对待,实现时只关心对于某种输入,视觉系统将给出何种输出。这两种方法理论上都是可以使用的,但面临的困难是,人类视觉系统对应某种输入的输出到底是什么,这是无法直接测得的。而且由于人的智能活动是一个多功能系统综合作用的结果,即使是得到了一个输入输出对,也很难肯定它是仅由当前的输入视觉刺激所产生的响应,而不是一个与历史状态综合作用的结果。

    不难理解,计算机视觉的研究具有双重意义。其一,是为了满足人工智能应用的需要,即用计算机实现人工的视觉系统的需要。这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”的能力。其二,视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。

原文链接:http://shijuanfeng.blogbus.com/logs/216968430.html
2015-03-23 09:35:03 wishchin 阅读数 6788
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

汉王高级研究人员(模式识别、图像处理类)招聘试题 
  原文链接:http://www.cnblogs.com/dongsheng/articles/2793142.html

说明: 
  可能您的专业并不完全符合本试题所涉及的领域。因此,并非所有的问题都需要回答 ,您可以只回答你所熟悉和能够回答的问题。允许参考任意的资料,但请独立完成此试题 ,我们更欣赏您独立的思考和创新的精神。本试题并非我们录用或者不录用您的惟一依据 。应聘高级研究人员者请回答这部分问题。 
  1.人工智能与模式识别的研究已有多年,但似乎公认的观点认为它仍然非常困难。试 对你所熟悉的任一方向(如指纹识别、人像识别、语音识别、字符识别、自然语言理解等 )的发展状况进行描述。并设想如果你将从事该方向的研究,你打算如何着手,以建立有 效的识别理论和方法;或者你认为现在的理论和方法有何缺陷,有什么办法来进行改进? (500字以内即可,不要太长) 
  2.简述下面任一主题的主要理论框架或主要观点(500字以内即可,不要太长) 
  (1)David Marr的视觉计算理论框架 
  (2)格式塔(Gestalt)心理学派的主要观点 
  (3)Bayes决策理论 
  (4)人工神经网络中的BP网络、自组织网络和联想记忆网络的主要内容 
  (5)基因算法 
  (6)小波分析 
  (7)目前流行的有损静态图像压缩方法 
  3.设想你要设计一个算法,检测给定的图像中是否有矩形结构。所要检测的矩形可能 有多种形态,试提出你的算法框架。要求你的算法至少能检测出样本中的矩形,而拒绝其 他的任意非矩形结构。矩形的大小、位置和方向未知,要求你的算法能确定这些参数。 
  如果你认为这个问题太难而不能解决,请说明理由。 


高级软件开发人员招聘试题 
  
  应聘高级软件开发人员者请回答这部分问题。 
  1.数据的逻辑存储结构(如数组,队列,树等)对于软件开发具有十分重要的影响, 试对你所了解的各种存储结构从运行速度、存储效率和适用场合等方面进行简要地分析。 

  2.数据库技术是计算机系统中一个非常重要的领域,几乎所有的计算机应用中都或多 或少地用到了数据库。试简要地谈谈数据库设计中应当注意哪些问题,以及如何解决?给 出两种你所熟悉的DBMS,要求一种适用于小型应用,另一种适用于大型应用,给出你做出 选择的理由。 
  3.某公司的主要业务是提供WWW和E-mail服务,出于安全考虑,该公司要求我公司提 供一套网络指纹登录系统,该系统要求能够利用指纹替代E-mail中常用的密码,并对所提 供的部分网页通过指纹认证后才能访问,请利用你所学过的知识对该系统进行分析设计, 你可以指定网络的配置(包括协议),但必须保证邮件用户既可通过网页(http方式)收 取信件,也可通过Outlook收取信件。请分析该系统的可行性,可行时给出系统结构和主要 的存储结构,指出系统中的难点和解决方法。(假设指纹识别的问题已经解决) 


汉王高级研究人员(模式识别、图像处理类)招聘笔试题

原文链接:http://www.lwlm.com/BiShiTiMu/201305/694443.htm

  说明:
  可能您的专业并不完全符合本试题所涉及的领域。因此,并非所有的问题都需要回答,您可以只回答你所熟悉和能够回答的问题。允许参考任意的资料,但请独立完成此试题,我们更欣赏您独立的思考和创新的精神。本试题并非我们录用或者不录用您的惟一依据。应聘高级研究人员者请回答这部分问题。
  1.人工智能与模式识别的研究已有多年,但似乎公认的观点认为它仍然非常困难。试对你所熟悉的任一方向(如指纹识别、人像识别、语音识别、字符识别、自然语言理解等)的发展状况进行描述。并设想如果你将从事该方向的研究,你打算如何着手,以建立有效的识别理论和方法;或者你认为现在的理论和方法有何缺陷,有什么办法来进行改进?(500字以内即可,不要太长)
  2.简述下面任一主题的主要本文由论文联盟http://www.LWlm.cOm收集整理理论框架或主要观点(500字以内即可,不要太长)
  (1)David Marr的视觉计算理论框架
  (2)格式塔(Gestalt)心理学派的主要观点
  (3)Bayes决策理论
  (4)人工神经网络中的BP网络、自组织网络和联想记忆网络的主要内容
  (5)基因算法
  (6)小波分析
  (7)目前流行的有损静态图像压缩方法
  3.设想你要设计一个算法,检测给定的图像中是否有矩形结构。所要检测的矩形可能有多种形态,试提出你的算法框架。要求你的算法至少能检测出样本中的矩形,而拒绝其他的任意非矩形结构。矩形的大小、位置和方向未知,要求你的算法能确定这些参数。
  如果你认为这个问题太难而不能解决,请说明理由。


图像处理职位面试题汇总(6)

原始链接:http://blog.csdn.net/songzitea/article/details/26163745?utm_source=tuicool

基础知识

1.为了提高算法运行速度,可以有哪些方法?(写你了解的、用过的)

2.什么是内存碎片?对系统能有何影响?如何在开发中尽量避免内存碎片

图像处理

1. 圆形靶子,在其上面随机标记一点,求点距圆心距离的概率密度函数和概率分布函数?

2.我们的算法研究主要分为应用算法研究和基础研究,在图像处理、模式识别方向,你觉得用算未予研究可以用到哪些场合?(比如:车辆识别,人脸识别)

3.简述hough变换的原理。请列举一些你认为可以用HOUGHT变换提取的形状,理由是什么?

4.图像特征:了解哪些图像像相关的特征(特征描述,特征算子),并举例用什么地方?

5.摄像机拍摄图像与现实世界是什么 变换?在这种变换中有哪些量不变的?请写出这种变换的代数表达式?

6.Deep Learning 听说过多少,并举出目前哪些领域应用到Deep learning技术?

7.图像增强与图像恢复是否是同一个概念?如果是,请解释什么是图像增强(图像恢复);如果不是,请说明其各自特点和应用领域,以及差异?

综合

如果在一段视频中,找寻穿上身蓝白条纹,下身黑色裤子的人,你能想到哪些方法?并给出大致的处理流程.

================

C/C++基础知识题目

1、 请问sizeof(char), sizeof(short), sizeof(int), sizeof(long*), sizeof(longlong)分别是多少?不同平台时哪些会有变化。

 2、 程序的局部变量存在于(       )中,全局变量存在于(         )中,     

  • 代码存在于(               )中      
  • 常量存与(    )中,
  •  动态申请数据存在于(          ) 

 3、  请指出下面程序的错误

void GetBuffer(char *p){  
    p=(char *)malloc(100);  
}  
void Test(void){  
    char *str=NULL;  
    GetBuffer(str);  
    strcpy(str,"hello world");  
    printf(str);  
}    

4. 以下代码的输出是

    int main()  {  
        int a[10]={0, 1, 2, 3, 5, 4, 6, 7, 9, 8};  
        int *ptr=(int*)(&a+1);  
        printf("%d,%d,%d,%d\n", *(a+1), *(ptr-1), (a+1)[5], sizeof(a) );  
    }  

嵌入式系统开发

1、 相对于PC软件开发,嵌入式软件开发有什么不同?

2、 常见设备接口中,串口、USB、SPI通常需要几根线,分别是什么线。使用时,典型速度是多少?有哪些差异?

3、 嵌入式系统中,驱动是什么?请说明其作用。

4、 嵌入式Linux系统中,有哪些同步机制?这些同步机制的优缺点是什么?

算法优化

1、给一个int型递增数组Data,写一个二分查找函数,并设计对该函数进行单元测试的测试用例。

2、嵌入式软件中,某代码if( sqrt( x*x + y*y ) < R ) { //后续耗时计算 } ,该语句需执行1920*1080次判断,发现其中浮点sqrt比较慢,需要优化:

     a)  x,y,R均为浮点数。怎么使用预先判断的优化方法?

     b)  x,y为BYTE类型数据,R为浮点数,有什么优化方法?


3、某识别比对系统,一次比对产生1百万条比对分值,分值为0~1000的float浮点数,请选出分值最大的前 1万条数据,同分按原顺序从前往后取,取满为止。请写出算法概要流程,要求尽量低的复杂度。

4、情况同上,分值改为整数,取值范围 0~4000,请写出算法概要流程,要求尽量低的复杂度。


图像处理算法工程师(索贝公司)

原文链接:http://blog.csdn.net/ningyaliuhebei/article/details/20122259

一、填空:
1、常用的插值方法有:最近邻插值、双线性插值、立方卷积插值。
2、常用的边缘检测算子有:一阶: Roberts Cross算子, Prewitt算子, Sobel算子, Canny算子, 罗盘算子
二阶: Marr-Hildreth。
3、能够表征一副图像的基本特征有:灰度值、纹理、形状
4、FIR滤波器设计中常用的窗函数:三角形(Bartlett)窗、汉宁(Hanning)窗、汉明(Hamming)窗、

布莱克曼(Blackman)窗
5、视频流处理单元是:音频流处理单元是:
6、(2006)10转换成16进制:7d6
7、X86体系中,常用寄存器中经常用来存储数据的是:
8、C++类中三种存取权限类型:private、public和protected。
9、视频帧播放速度的单位是:PAL制式是——25fps,NTSC是——30fps。
10、mfc中,CFile类最大支持读写——字节,Windows下动态加载一个动态函数名————

2006-10-15 15:04:00 begtostudy 阅读数 10188
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

我不是这个专业的,但是一直在做图像处理,看到相关的就贴出来了。

中国移动推出了二维码业务,其中关键技术不是二维码的编码和解码,而是用手机摄像头采集二维码时对二维码的定位问题。这恰恰就是一个典型的图像识别问题。通过这个可以看出,手机摄像头日后将被充分使用。我认为只要涉及到对外界环境进行视频或图像采集的应用程序一般都离不开图像的处理与识别,因此有理由认为日后我们的技术将会用在手机增值方面有所发展。如果你对这个应用方向有兴趣建议业余时间学习一下 Symbain C/C++,EVC,J2ME等移动开发技术,当然,课程上学的东西不但不能丢,还必须学精~~~
    图像识别未来可能有比较大发展的应用领域:智能交通(废话),智能小区,“智能家庭”(想象一下,日后你出门不需要带钥匙,只要在家门口对着视频采集器傻笑,门锁就能应声而开。你回到家中一个手势或者一句话就能控制家里的电器为你工作,这些方向是不是很有吸引力呀),不停车检查,小区管理,停车场控制,卫星遥感图像识别,雷达方面,运动物体锁定,指纹锁,奥运会应用(比如跳远项目中运动员起跳时脚与踏板之间距离的自动检测)等等等等,甚至可以大胆等想象一下,可能以后登陆一个网站或者网上付费需要的不是密码而是一个摄像头。
总之,只要产品中有图像采集设备,就有图像处理与模式识别的应用领域。要想在这些领域做好,那么MFC、STL、框架、构件、.Net等技术就非学不可了,数据库方面技术也要掌握,现在公司需要的是多面手(忘了在那篇文章中看到的了),很难想象汉王科技的算法工程师们都只会用Matlab写算法~~~不是吗?当然,有事没事就在SCI上发表个把篇论文的人另当别论。
    首先要对你选择的方向有信心,它确实很有应用前景,然后是要端正学习心态。我相信如果一个人仅仅为了挣钱而去做某些事或者学某些东西,那么几乎可以断定这个人将一事无成~~~,因为浮躁使它不可能专心做好任何事情,心猿意马的结果就是一瓶子不满半瓶子咣当。相反,如果是因为爱好去埋头苦学,那么当他若干年后抬起头时可能就会发现,自己已经把绝大多数人落在了后面。
    我只是一名本科生,虽然已然20好几,但却还是充满了幻想。其实我的一切图像识别方面的知识都是通过wangfang上的论文自学来的(3元/篇,真够狠的。。。),考研好贵,还是等攒上两年钱再说吧。。。虽然现在的工作挣不到什么钱,但毕竟从事的是我喜欢的职业,我很高兴。一想到自己努力的方向是“让计算机能够看到”,我就非常激动。不管日后会有多少困难,我都一定会在这个领域继续下去,相信大家也都有相同的信念吧? 

 1.~~一切理论学习都是在为日后的应用铺路,发表过论文不代表能找到工作,只有为你研究的东西找到了应用的领域并且真正实现了,那么你的研究才有意义~~
    2.语言不学肯定不行,但语言并不是重点,理论上说不存在一种语言能实现但其他语言实现不了的功能。思想(比如OOA思想)才是关键。重点学什么语言要依你日后的发展方向而定。至于应用,在研究生期间你肯定会对某一领域(智能交通,智能小区,“图像检索系统”等等方面)感兴趣的,顺其自然就好了,不用刻意去找什么跟你专业不相干的东西去学(比如GIS,ERP系统等),否则你的研究生除了基础课以外剩下时间就白白浪费了。

    个人感觉现在模式识别方面的工作不太好找,不像学网页后台的兄弟们,熟练使用ASP+SQL Server出去就被人哄抢~~~
    一般搞模式识别的很少去研究什么.Net,STL,MFC等技术,我们大多数时间是在捣鼓Matlab,我敢说熟练掌握C/C++的人都很少,如果算法不精或者没有什么有创意的想法,出去肯定是没对口工作的(我指开发方面)。我水平一般,因此费了很大劲才在一家搞智能交通的小公司找到工作,老板在决定用我时的态度还很勉强~~~

2014-09-14 21:57:21 u011916318 阅读数 7595
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看


     既然学了模式识别这个专业,研究生期间主要方向是机器学习,计算机视觉,图像处理。所以很想了解现在这个领域的就业方向及相关要求。

今天在“增强视觉 | 计算机视觉 增强现实”上看到一则招聘智能图像/视频处理工程师的广告,岗位要求如下:

  1. 动手能力强,熟练掌握C/C++/Matlab语言,有较强的算法分析和实现能力,并具备良好的代码与文档风格;
  2. 了解人脸识别、目标检测、跟踪和识别、图像处理等技术,具备一年以上实际工作经验;
  3. 参与项目需求分析、负责设计完成需求规格、软件架构、测试策略,撰写相关的技术文档;
  4. 搭建研发环境,完成系统中相关软件模块的编码、调试、单元测试、功能验证,保证项目进度和产品质量;
  5. 协助完成项目的系统集成测试、版本交付等工作,对项目实施和维护提供支持;

     于是搜了一些关于图像、视频处理方面的就业要求,做一下总结,以便让自己明确研究生期间的学习任务,即便做不成科学家,也得有点

技术吧。

    1.编程语言:熟悉C++/C/OpenCV/Matlab开发语言,主要是有较强的C++/C图像处理编程能力,绝大多数岗位都要求熟悉OpenCV,Matlab在理论验证阶段比较方便,但是在操作硬件和效率上远不及C++/C,所以一般公司对此没要求。以后还要仔细学习C++/C,还是先从C++ primer开始,之后再看些effective系列的。另外,还要求具备良好的代码与文档风格,以后写代码还是要讲求规范了。

  

     2.知识储备:机会总是青睐有准备的人。图像处理应用很广,因此不同岗位要求侧重不同,最基本都必须掌握图形处理的开发与研究,熟悉图像处理的各种算法,特别是图像去燥、图像增强、复原、质量改善、检测、色彩科学、图像分割、图像识别处理、图像跟踪、图像的获取及视频处理,具体应用包括人脸识别、医学影像处理、多点识别、文字检测与是识别。特别的,结合不同应用,还需要自然语言处理知识。另外,要有优秀的数学功底(特别是线性代数、优化理论、统计知识)。

     3.英语水平:优秀的英文写作技能,英语口语流利。主要是能读懂英文技术文档,在研究院还需要写论文,公司更需要写技术文档,所以平时得多积累专业词汇。至于英语口语,还是从听力开始吧,中科院自动化所的图像处理、机器学习的课都很经典,大多数是留学归来的年轻教师,可以开拓思路,顺便积累专业词汇。这个寒假要把图像处理的课听完,再多做些试验。个人还比较喜欢“The Big Bang Theory”,悠闲加娱乐。

   4.社交能力:硬件条件之后就是软件条件。大多数公司如是说:“良好的表达能力、团队合作精神和创新能力”。我觉得就是社交能力,HR看你合不合群。有个同学去参加面试,参加面试的还有研究生和来自理工科背景更雄厚的本科生,在群面、无领导小组讨论和辩论阶段,很多背景很强的学生却因太过张扬和表现自己被pass(这是同学分析的原因)。看来沉着、稳重还是必要的,谁也不想招个老板进来。而所谓的创新能力,另一个同学的面试经历给了我很大启发。他现在已经实习两个月了,回顾自己面试,他觉得正像面试官说的:“你还没入门呢”。而之所以拒掉N个研究生,选择同学这个应届毕业生,主要是他对这个方向很有热情,本科期间在毫无指导的情况下,主动接触了很多零零碎碎的东西,帮助同学和老师解决了一个又一个稀奇古怪的问题。据他说,这些东西在之后的工作中没一样能用到的,但是没有这些基础又是绝对干不了活的。之后的工作也是,没有人盯着他干活,老板给个指标,就放手做去吧,老板只要个结果。公司里每个人基本都要独挡一面,有时候还得独挡几面,所以非关键难题请教前辈,其他细节问题别人也不清楚,清楚也没时间指导。同学主动去学,去解决问题的能力是最让老板放心的。从他的话中体现出来的热情才是他“创新能力”的原动力。

      额……要学的真多,鸭梨倍增,貌似都是本科没学过的,学过的,不常用,也忘差不多了。曾经的那些模数电,控制神马的似乎是不太用的上了,我就是在不断印证那句话:生命在于折腾。


2013-12-01 11:05:18 Adolph_Chou 阅读数 3925
  • 课程内容及特色

    掌握基于深度学习的计算机视觉原理与算法 掌握基于深度学习的计算机视觉的项目实践方法 提高深度学习计算机视觉方向的文献阅读能力

    2242人学习 白勇
    免费试看

(先汇总,后续整理)

三者之间既有区别,又有联系。 

计算机图形学是给定关于景象结构、表面反射特性、光源配置及相机模型的信息,生成图像。 
而计算机视觉是给定图象,推断景象特性实现的是从模型到图像的变换,也就是说从图象数据提取信息,包括景象的三维结构,运动检测,识别物体等。 
模式识别则是从特征空间到类别空间的变换。研究内容包括特征提取(PCA,LDA,LFA,Kernel,Mean Shift,SIFT,ISOMAP,LLE);特征选择;分类器设计(SVM,AdaBoost)等。 

总之,计算机图形学是计算机视觉的逆问题,两者从最初相互独立的平行发展到最近的融合是一大趋势。图像模式的分类是计算机视觉中的一个重要问题,模式识别中的许多方法可以应用于计算机视觉中。

图形学讲的是图形,也就是图形的构造方式,是一种从无到有的概念,从数据得到图像。

数字图像处理是对已有的图像进行变换、分析、重构,得到的仍是图像。

PR本质就是分类,根据常识或样本或二者结合进行分类,可以对图像进行分类,从图像得到数据。


Computer Graphics和Computer Vision是同一过程的两个方向。Computer Graphics将抽象的语义信息转化成图像,Computer Vision从图像中提取抽象的语义信息。Image Processing探索的是从一个图像或者一组图像之间的互相转化和关系,与语义信息无关。

先说区别:
Computer Graphics,简称 CG 。输入的是对虚拟场景的描述,通常为多边形数组,而每个多边形由三个顶点组成,每个顶点包括三维坐标、贴图坐标、rgb颜色等。输出的是图像,即二维像素数组。
Computer Vision,简称 CV。输入的是图像或图像序列,通常来自相机或usb摄像头。输出的是对于图像序列对应的真实世界的理解,比如检测人脸、识别车牌。
Digital Image Processing,简称 DIP。输入的是图像,输出的也是图像。Photoshop中对一副图像应用滤镜就是典型的一种图像处理。常见操作有模糊、灰度化、增强对比度等。

再说联系:
CG 中也会用到 DIP,现今的三维游戏为了增加表现力都会叠加全屏的后期特效,原理就是 DIP,只是将计算量放在了显卡端。
CV 更是大量依赖 DIP 来打杂活,比如对需要识别的照片进行预处理。
最后还要提到近年来的热点——增强现实(AR),它既需要 CG,又需要 CV,当然也不会漏掉 DIP。它用 DIP 进行预处理,用 CV 进行跟踪物体的识别与姿态获取,用 CG 进行虚拟三维物体的叠加。

简单点说吧,1 计算机视觉,里面人工智能的东西更多一些,不仅仅是图像处理的知识,还涵盖了人工智能,机器学习等领域知识;2,计算机图形学,主要涉及图形成像及游戏类开发,如opengl等,还有就是视频渲染等;3,图像处理,这个主要针对图像图像的基本处理,如图像检索或则图像识别,压缩,复原等等操作。以上只是本人字面理解


计算机图形学和数字图像处理是比较老的技术。计算机视觉要迟几十年才提出。
计算机图形学和数字图像处理的区别在于图形和图像。
图形是矢量的、纯数字式的。图像常常由来自现实世界的信号产生,有时也包括图形。
而图像和图形都是数据的简单堆积,计算机视觉要从图像中整理出一些信息或统计数据,也就是说要对计算机图像作进一步的分析。
以上是它们的区别,下面来说联系:
计算机图形学的研究成果可以用于产生数字图像处理所需要的素材,计算机视觉需要以数字图像处理作为基础。计算机视觉与数字图像处理的这种关系类似于物理学和数学的关系。

你可以多看看浙大周昆的文章,周昆是计算机图形学这个领域的领军人物
另外,你如果不是浙江大学的或者中科院计算所的,不建议做这个方向,难度太大(图形比图像虽然表面上只高一维,但实际上工作量大了好多倍;其次,图像,国内外差距目前已经很小,好发重要期刊;图形,除上面两个单位和微软外,国内外差距很大,不好发重要期刊)


数字图像处理主要是对已有的图像,比如说可见光的图像、红外图像、雷达成像进行噪声滤除、边缘检测、图像恢复等处理,就像用ps 处理照片一样的。人脸识别啊、指纹识别啊、运动物体跟踪啊,都属于图像处理。去噪有各种滤波算法;其他的有各种时频变化算法,如傅里叶变化,小波变换等,有很多这方面的书籍。
图形学主要研究如何生成图形的,像用autoCAD作图,就是图形学中算法的应用。各种动漫软件中图形算法的生成等。