精华内容
下载资源
问答
  • 一篇硕士论文的开题报告,可以借鉴

     

     

    论文题目

    基于Android的无线视频监控的设计与实现

    论文工作计划

     

    包文

    括字

    :总

    文结

    献等

    阅工

    读作

    、的

    课进

    题度

    调计

    查划

    实此

    验栏

    方由

    法研

    、究

    理生

    论填

    分写

     

     

     

     

     

    一、课题调查

    视频监控业务具有悠久的历史,在传统上广泛应用于安防、交通事故处理等行业应用领域。近年来,随着计算机和网络的普及,视频监控正越来越广泛地渗透到教育、政府、娱乐、医疗、酒店、运动等其它各种领域。随着人们对信息技术的深入研究,图像处理、视频压缩、网络通信等计算机技术得到了迅速发展,以这些技术为基础的视频监控技术不断成熟并且得到了广泛应用。视频监控系统是由视频采集、视频压缩、视频传输、视频管理和系统控制等电子设备和计算机系统组成的有机整体。

    随着移动网络带宽的增加,特别是3G网络、wifi的广泛普及以及更高速规范的4G网络的研究以及建设,通过手机观看监控视频已经成为现实。在有线网络的基础上,增加移动视频监控业务,用户可随时随地通过手机了解现场实时情况。使用手机视频监控的优势已经非常的明显:

    覆盖面广:手机无线网络覆盖率极高,几乎不受山川、河流、桥梁道路等复杂地形和区域限制。

    部署方便:无线视频监控系统几乎可以部署在室外的任何地方,包括水体、崎岖地带、偏远地方。前端编码器或网络摄像机,甚至手机,采取无线接入的方式,只需要在移动网络覆盖下,就能很方便、很简易地搭建起监控点,免除复杂地形导致的布线繁琐和麻烦。

        高数据吞吐量:考虑到未来的WIFI和3G技术发展,无线网络传输带宽可高达6Mbps~200Mbps.

    高可靠性:高端无线传输系统的可靠性高达99.999%的载波级,可以实现无中断的安全传输。

    成本低廉:免除了远距离网络布线所造成的高昂费用。

    监控方便:可随时随地采用手机进行无线视频监控,不局限于预先安装好监控客户端的某台电脑。

    业务多样:无线视频监控不仅可以覆盖所有固网监控业务,还可以开展各种移动业务,如:移动执法监控、移动采访等。

    在移动智能终端方面,Android操作系统成为近年来最受关注的操作系统,由于它的免费性,以及系统的开放性,使开发人员可以随时取得程序的源代码,这对于程序开发人员和运营商定制非常重要。国际一线手机厂商三星,HTC,摩托罗拉等公司加盟,使得Android操作系统的发展更加迅速化,硬件配置的上升使得手机成了名符其实的“掌上电脑”。 同时,基于Android操作系统的智能手机已经占据全球超过一半的份额,使得Android操作系统已经跃居智能终端的榜首。本课题源于本人参加的项目:基于TD-SCDMA的远程无线视频监控系统。

    二、理论分析

        本课题所设计的移动视频监控系统是基于Android平台开发的,选用H.264标准作为视频压缩标准,采用RTP协议作为传输协议,针对系统需求实现客户端软件的开发。课题基于C/S模式的移动视频监控系统,客户端为Android移动终端,如智能手机、平板电脑等。

    2.1系统框架

    本系统主要包括Android手机客户端,流媒体服务器,视频服务器。在整个系统框架中,在监控前端,用户可以将摄像头固定在某一区域,使用摄像头采集监控区域的视频图像,摄像头可以根据用户的需要,调整监控角度和设置参数;在视频服务器端,系统通过H.264编码标准将视频图像数据压缩编成网络格式图像,大大的提高传输的效率;视频服务器利用sip协议和媒体服务器进行交互,发送数据到媒体服务器,媒体服务器主要用来转发,把数据转发到不同的客户端。媒体服务器和客户端的交互主要通过socket通信。客户端接收到数据流后,对数据流进行解码和播放。

    整个系统的框架图:

         

    2.2 Android对多媒体的支持

    Open Core是Android 多媒体框架的核心,所有Android平台的音视频采集,播放的操作都是通过它来实现。它也被称为PV(Packet Video), Packet Video是一家专门提供多媒体解决方案的公司。通过Open Core程序员可以方便快速的开发出想要的多媒体应用程序,例如:音视频的采集,回放,视频会议,实时的流媒体播放等等应用。Open Core支持的格式包括:MPEG4、H.264、MP3、AAC、AMR、JPG、PNG、GIF等。Open Core多媒体框架有一套通用课扩展的接口,针对第三方的多媒体编解码器,输入、输出设备等等。

        OpenCore是一个多媒体的框架,从宏观上来看,它主要包含了两大方面的内容:

      PVPlayer:提供媒体播放器的功能,完成各种音频(Audio)、视频(Video)流的回放(Playback)功能;

      PVAuthor:提供媒体流记录的功能,完成各种音频(Audio)、视频(Video)流的以及静态图像捕获功能。

    为了更好的组织整体的架构,OpenCore在软件层次在宏观上分成几个层次:

    OSCL:Operating System Compatibility Library (操作系统兼容库),包含了一些操作系统底层的操作,为了更好地在不同操作系统移植。包含了基本数据类型、配置、字符串工具、IO、错误处理、线程等内容,类似一个基础的C++库。
        PVMF:PacketVideo Multimedia Framework(PV多媒体框架),在框架内实现一个文件解析(parser)和组成(composer)、编解码的NODE,也可以继承其通用的接口,在用户层实现一些NODE。
        PVPlayer Engine:PVPlayer引擎。
        PVAuthor Engine:PVAuthor引擎。

      从播放的角度,PVPlayer的输入的(Source)是文件或者网络媒体流,输出(Sink)是音频视频的输出设备,其基本功能包含了媒体流控制、文件解析、音频视频流的解码(Decode)等方面的内容。除了从文件中播放媒体文件之外,还包含了与网络相关的RTSP流(Real Time Stream Protocol,实时流协议)。在本系统中,我们不过多的研究OpenCore的实现,只需要调用Android提供的上层Media  API进行视频播放器的开发。

     2.3 流媒体服务器的架构

        流媒体服务器是负责和视频服务器交互获取经过压缩的视频流数据,通过

    RTP/RTCP发送经过压缩的数据包到移动终端,移动终端通过解压这些数据包后可以播放实时视频,流媒体服务器的实现是用户可以通过终端观看想要查看的视频信息。    

    本系统的流媒体服务器主要包括基于live555的服务器,Live555 是一个为流媒体提供解决方案的跨平台的C++开源项目,它实现了对标准流媒体传输协议如RTP/RTCP、RTSP、SIP等的支持。Live555实现了对多种音视频编码格式的音视频数据的流化、接收和处理等支持,包括MPEG、H.263+、DV、JPEG视频和多种音频编码。同时由于良好的设计,Live555非常容易扩展对其他格式的支持。Live555 Streaming Media

    整体框架如图所示:

        UsageEnvironment模块是对系统环境的抽象,包括抽象类UsageEnvironment和TaskScheduler。UsageEnvironment主要用于消息的输入输出和用户交互功能;TaskScheduler实现事件的异步处理、事件处理函数的注册等,它通过维护一个异步读取源实现对诸如通信消息到达等事件的处理,通过使用DelayQueue实现对其他注册函数的延时调度。该模块还包含一个HashTable类,在整个项目中都可以用到它。程序设计者通过自定义该抽象了类UsageEnvironment和TaskScheduler类的子类,就可以在特定环境(如GUI环境)中运行,不需要进行过多的修改。      

    BasicUsageEnvironment模块是UsageEnvironment的一个控制台应用的实现。它针对控制台的输入输出和信号响应进行具体实现。

    GroupSock模块用于实现数据包的发送和接收。GroupSock主要被设计用以支持多播,但它也完全支持单播通信。

      LiveMedia模块是Live555最重要的模块。该模块声明了一个抽象类Medium,其他所有类都派生自该类,下面简要介绍这些类:

      RTSPClient:该类实现RTSP请求的发送和响应的解析,同时根据解析的结果创建对应的RTP会话。

      MediaSession:用于表示一个RTP会话,一个MediaSession可能包含多个子会话(MediaSubSession),子会话可以是音频子会话、视频子会话等。

      RTCPInstance:该类实现RTCP协议的通信。

      Source和Sink:这两个概念类似DirectShow中的Filter。Source抽象了数据源,比如通过RTP读取数据。Sink是数据消费者的抽象,比如把接收到数据存储到文件,该文件就是一个Sink。数据的流动可能经过多个Source和Sink。MediaSink是各种类型的Sink的基类,MediaSource是各种类型Source的基类,各种类型的流媒体格式和编码的支持即是通过对这两个类的派生实现的。Source和Sink通过RTP子会话(MediaSubSession)联系在一起。

    2.4 视频服务器

        本系统的视频服务器采用了TI公司的DaVinci解决方案,主要用来处理摄像头传输过来的原始视频数据,摄像头采集到信息后直接交给视频监控终端,视频监控终端进行编码和封装数据,并发送数据流到流媒体服务器。

    2.5 流媒体协议

        流媒体服务器中主要的协议: RTP实时传输协议、RTCP实时传输控制协议、RTSP实时流协议以及SIP会话初始协议。其中RTP/RTSP、RTSP协议主要用来流媒体的传输,SIP协议主要是实现对云台的控制。

    RTP/RTCP、RTSP协议关系如图所示,RTP/RTCP工作在传输层,RTSP工作在应用层。RTP主要承担数据传输任务,而RTCP为应用层提供视频质量控制的手段和方法。RTSP则是控制RTP的发送。RTSP的消息是由客户端到服务器的请求和服务器到客户端的回应组成。

    三、课题研究的内容

    1、搭建android的开发环境,熟悉MVC架构的android开发平台(intent、antivity、service);深入研究android下多媒体框架的原理,理解android下对h.264文件的解码原理,最后,在此基础上做一个视频监控的客户端软件,使其能够实时播放视频,并对视频参数进行设置,控制云台的旋转以及报警处理系统等功能。

    2、分析socket通信,建立socket通信连接,能够使android客户端和媒体服务器之间的通信连接,建立信令的传输,使其客户端能够加载媒体服务器发送过来的数据信息,验证用户的登录以及用户发出指令消息控制云台的旋转和设备参数的设置。

    3、研究live555的框架,在基于live555这个开源项目上二次开发适合本系统的流媒体服务器,使其能够实现转发数据的功能,实现多个终端能够同时观看实时视频的功能。

    4、分析整个系统相关的协议:rtp/rtcp协议、rtsp协议、sip协议。其中,利用rtsp控制实时视频流的rtp/rtcp传输,sip协议控制视频采集终端。

    5 、针对有相当一部分配置android2.3平台的主流手机无法升级到android4.0平台,本系统分别开发出适合android2.3和android4.0平台的客户端软件。

    四、研究进度计划

    第一阶段(2011年12月-2012年3月):初期的调研和资料的搜集、整理。熟悉android开发环境,学习相关的android知识以及rtp/rtcp协议、rtsp协议、sip协议以及H.264编解码的知识。

    第二阶段(2011年4月-2011年8月):编写客户端软件,live555的二次开发,实现基本功能并测试,结合系统逐步实现功能并通过调试。

    第三阶段(2011年9月-2011年11月):整体性调试,主要针对实时视频延迟以及不流畅问题的解决,并完善功能。

    第四阶段(2011年12月-2012年3月):论文的撰写。

    五、文献阅读

    [l]林冬.高清化:数字视频监控系统发展方向[J].中国安防技术与应用.2009,(l-2):38-39

    [2]马天宝,游敏惠.视频监控系统关键技术及发展分析[J].科技论坛,2009(3):3

    [3]田俊静,张波,黄湘情等译.Android基础教程[M].,北京:人民邮电出版社.2010.

    [4]西刹子.安防天下——智能网络视频监控技术详解与实践,北京:清华大学出版社,2010:3-10

    [5]郭卫华.模拟视频监控系统之过去、现在和将来.中国安防,2008(Z1)54-57

    [6]江潮.基于网络的数字视频监控系统.武汉大学学报(自然科学版),200046(5)

    [7]石头 张笑微 周建雄.智能网络视频监控系统.兵工自动化,2009,28(12):7l

    [8]余腊生 刘勇.基于网络的智能视频监控系统的设计与实现.计算机工程与设计,2009(16):31

    [9]李磊.视频监控关键技术及其应用前景.湖北:湖北省通信学会2006学术年会论文集.2006:283-285

    [10] E2Ecloud工作室.深入浅出Google Android,北京:人民邮电出版社,2009,3

    [11] 高嵩,赵方,宋茂强.移动流媒体视频监控系统的 研究与设计.计算机应用研究. 1001- 3695( 2009) 03- 1044- 03

    [12] H.Schulzrinne,et a1.RTP:A Transport Protocol for Real-Time Applications,2003.7

    [13] RTP:A Transport Protocol for real-Time Application[S].RFC 3550,2003

    [14] SWenger,M.M.Hannuksela,etal.RTP Payload Format for H.264 Video. RFC3984, 2005.

    [15] K.Brown.The RTCP gateway:scaling real-time control bandwidth for wireless networks.Computer Communications,23(2000),1470-1483

    [16] H.Schulzrinne,A.Rao,R.Lanphier.Real Time Streaming Protocol[S].RFC 2326,1998

    [17] Xue-Wu Zhang,Gang Hu.Strategies of improving QOS for Video Transmission over 3G Wireless Network[J] .IEEE NETWORK,2005

    [18] M.Handley,V. Jacobson.Session Description Protocol[S].RFC 2327 ,1998

    [19] ]ShawnVanEvery.ProAndroidMedia[M].USA:APress,2009,41-45.

    [20]王彦丽,程明,等.基于RTP/RTCP的数字视频监控系统的设计与实现[J] .计算机工程与科学 2009,31(3):58-60

    [21]吕伟梅,郑庆华,等.移动流媒体播放器的设计与实现[J] .计算机科学 2008,34(9):126-128

    [22]章民融,徐亚峰,等.基于RTSP的流媒体视频服务器的设计与实现[J].计算机应用与软件,2006,23(7):93-95

    [23]李思.基于RTP的视频传输控制的研究[D] .西安:西安电子科技大学,2009.

    [24]毕厚杰.新一代视频压缩编码---H.264/AVC[M].北京:人民邮电出版社,2005 [25]岑慧.RTP/RTCP协议在3G多媒体移动通信中的应用研究[D] .杭州:浙江工业大学,2008.

    [26]白刚等. 3G网络视频流媒体服务系统研究与实现[J].计算机工程与应用.2005,24

     

     

    注:此页不够可增加。

     

     

     

    论此

    文栏

    预由

    计导

    要师

    求填

    及写

     

    该生对研究内容的国内、外文献阅读充分,理论分析够用,研究内容和实现方案明确,研究进度安排较合适,对于实现方法和过程说明清晰,特准予开题。

        预计再经过约一年的研究,蒋培健同学能针对拟研究内容提出创新性方案,分析和验证所提方案性能,并至少在高水平通信类期刊上发表1篇以上的学术论文,并完成硕士培养要求和毕业论文。

     

     

    PC,windows7操作系统,visual studio2010,eclipse开发平台,android智能手机,云台、摄像头

     

    姓   名

    职   称

    所  在  单  位

    组 长


      

    成 员


      

    成 员


      

    成 员

     

     

     

     

     

     

     

     

     

    组长签字:                   年   月   日

     

    教意

    部见

                              

                               

     

     

       主任:         年  月  日              

     

    所在学院意见

                     

     

     

     

         院长:         年   月  日

    说明:1. 开题报告工作是研究生培养的重要环节,务必高度重视。

    2. 开题报告会必须在教学部或学院范围内公开举行,并应对其内容进行认真审查,若开题报告组对研究生的选题有不同看法,请详细写在“开题报告组意见”里,对是否重新选题提出明确意见。如开题报告未获通过,可于三个月之内再做一次

    3. 开题报告完成后,请于第四学期末将此表送交研究生培养科留存,作为论文答辩资格

    审查的重要依据,另备复印件两份,分别由所在学院和研究生保存。

    展开全文
  • matlab人脸识别论文

    万次阅读 多人点赞 2019-10-11 17:41:51
    本文设计了种基于BP神经网络的人脸识别系统,并对其进行了性能分析。该系统首先利用离散小波变换获取包含人脸图像大部分原始信息的低频分量,对图像数据进行降维;再由PCA算法对人脸图像进行主成分特征提取,进--步...

    摘 要

     本文设计了一种基于BP神经网络的人脸识别系统,并对其进行了性能分析。该系统首先利用离散小波变换获取包含人脸图像大部分原始信息的低频分量,对图像数据进行降维;再由PCA算法对人脸图像进行主成分特征提取,进--步降低图像数据的处理量;最后使用经过训练后的BP神经网络对待测人脸进行分类识别。详细介绍了离散小波变换PCA特征提取以及BP神经网络分类设计。通过系统仿真实验与分析发现:人脸特征的提取是该系统的关键;同时,由于人脸灰度信息的统计特征与有监督训练BP神经网络分类器,使该系统只在固定类别,并且光照均匀的人脸识别应用场景中具有较高的识别准确率。因此,很难在复杂环境中应用。
    

    关键词:人脸识别;人工神经网络;离散小波变换; PCA; BP神经网络
    Abstract
    In this paper, a face recognition system based on BP neural network is designed and its performance is analyzed. The system first uses discrete wavelet transform to obtain the low-frequency components which contain most of the original information of the face image, and then uses PCA algorithm to extract the principal component features of the face image, progressively reducing the processing capacity of the image data. Finally, the trained BP neural network is used to classify and recognize the tested face. Discrete wavelet transform PCA feature extraction and BP neural network classification design are introduced in detail. Through the system simulation experiment and analysis, it is found that the extraction of facial features is the key of the system. At the same time, because of the statistical features of gray information and the supervised training of BP neural network classifier, the system only has a high recognition accuracy in fixed categories and uniform illumination of face recognition application scenarios. Therefore, it is difficult to apply in complex environment.

    Key words: face recognition; artificial neural network; discrete wavelet transform; PCA; BP neural network
    1绪论

      人脸识别是模式识别研究的一个热点,它在身份鉴别、信用卡识别,护照的核对及监控系统等方面有着I泛的应用。人脸图像由于受光照、表情以及姿态等因索的影响,使得同一个人的脸像矩阵差异也比较大。因此,进行人脸识别时,所选取的特征必须对上述因素具备-一定的稳定性和不变性。主元分析(PCA)方法是一种有效的特征提取方法,将人脸图像表示成一一个列向量,经过PCA变换后,不仅可以有效地降低其维数,同时又能保留所需要的识别信息,这些信息对光照、表情以及姿态具有一定的不敏感性。 在获得有效的特征向量后,关键问题是设计具有良好分类能力和鲁棒性的分类器、支持向量机(SVI )模式识别方法,兼顾调练误差和泛化能力,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。
    

    1.1人脸识别技术的细节

    一般来说,人脸识别系统包括图像提取、人脸定位、图形预处理、以及人脸识别(身份确认或者身份查找)。系统输入一般是一张或者一系列含有未确定身份的人脸图像,以及人脸数据库中的若干已知身份的人脸图像或者相应的编码,而其输出则是一系列相似度得分,表明待识别的人脸的身份。
    1.2人脸识别技术的广泛应用

    一项技术的问世和发展与人类的迫切需求是密切相关的,快速发展的社会经济和科学技术使得人类对安全(包括人身安全、隐私保护等)得认识越来越重视。人脸识别得一个重要应用就是人类的身份识别。一-般来说, 人类得身份识别方式分为三类:
    1.特征物品,包括各种证件和凭证,如身份证、驾驶证、房门钥匙、印章等;
    2.特殊知识,包括各种密码、口令和暗号等;

    3.人类生物特征,包括各种人类得生理和行为特征,如人脸、指纹、手形、掌纹、虹膜. DNA、签名、语音等。前两类识别方式属于传统的身份识别技术,其特点是方便、快捷,但致命的缺点是安全性差、易伪造、易窃取。特殊物品可能会丢失、偷盗和复制,特殊知识可以被遗忘、混淆和泄漏。相比较而言,由于生物特征使人的内在属性,具有很强的自身稳定性和个体差异性,因此生物特征是身份识别的最理想依据。基于以上相对独特的生物特征,结合计算机技术,发展了众多的基于人类生物特征的身份识别技术,如DNA识别技术、指纹识别技术、虹膜识别技术、语音识别技术和人脸识别技术等。生物识别技术在上个世纪已经有了- -定得发展,其中指纹识别技术已经趋近成熟,但人脸识别技术的研究还处于起步阶段。指纹、虹膜、掌纹等识别技术都需要被识别者的配合,有的识别技术还需要添置复杂昂贵的设备。人脸识别可以利用已有的照片或是摄像头远距离捕捉图像,无需特殊的采集设备,系统的成本低。并且自动人脸识别可以在当事人毫无觉察的情况下完成身份确认识别工作,这对反恐怖活动有非常重要的意义。基于人脸识别技术具有如此多的优势,因此它的应用前最非常广阔,已成为最具潜力的生物特征识别技术之一
    1.3人脸识别技术的难点

      虽然人类可以毫不困难地根据人脸来辨别一个人,但是利用计算机进行完全自动的人脸识别仍然有许多困难。人脸模式差异性使得人脸识别成为-个非常困难的问题,表现在以下方面:
    
      1.人脸表情复杂,人脸具有多样的变化能力,人的脸上分布着Ii十多块面部肌肉,这些肌肉的运动导致不同面部表情的出现,会造成人脸特征的显著改变。
    
      2.随着年龄而改变,随着年龄的增长,皱纹的出现和面部肌肉的松驰使得人脸的结构和纹理都将发生改变。
    
      3.人脸有易变化的附加物,例如改变发型,留胡须,戴帽子或眼镜等饰物。4.人脸特征遮掩,人脸全部、部分遮掩将会造成错误识别。
    
      5.人脸图像的畸变,由于光照、视角、摄取角度不同,可能造成图像的灰度。
    

    1.4国内外研究状况

    人脸识别是人类视觉最杰出的能力之-。 它的研究涉及模式识别、图像处理、生物学、心理学、认知科学,与基于其它生物特征的身份鉴别方法以及计算机人机感知交互领域都有密切联系。人脸识别早在六七十年代就引起了研究者的强烈兴趣。20世纪60年代,Bledsoe 提出了人脸识别的半自动系统模式与特征提取方法。70年代,美、英等发达国家开始重视人脸识别的研究工作并取得进展。1972 年,Harmon 用交互人脸识别方法在理论上与实践上进行了详细的论述。同年,Sakai 设计了人脸图像自动识别系统。80年代初
    T. Minami 研究出了优于Sakai的人脸图像自动识别系统。但早期的人脸识别一般都需要人的某些先验知识,无法摆脱人的干预。进入九十年代,由于各方面对人脸识别系统的迫切需求,人臉识别的研究变的非常热门。人脸识别的方法有了重大突破,进入了真正的机器自动识别阶段,如Kartbunen-Loeve变换等或新的神经网络技术。人脸识别研究

    得到了前所未有的重视,国际上发表有关人脸识别等方面的论文数量大幅度增加,仅从1990年到2000年之间,sCl 及EI可检索到的相关文献多达数千篇,这期间关于人脸识别的综述也屡屡可见。国外有许多学校在研究人脸识别技术,研究涉及的领域很广。这些研究受到军方、警方及大公司的高度重视和资助,国内的一些知名院校也开始从事人脸识别的研究。

      人脸识别是当前模式识别领域的一个前沿课题,但目前人脸识别尚处于研究课题阶段,尚不是实用化领域的活跃课题。虽然人类可以毫不困难地由人脸辨别一个人,但利用计算机进行完全自动的人脸识别存在许多困难,其表现在:人脸是非刚体,存在表情变化:人脸随年龄增长面变化:发型、眼镜等装饰对人脸造成遮挡:人脸所成图像受光照、成像角度、成像距离等影响。人脸识别的困难还在于图像包括大量的数据,输入的像素可能成百上千,每个像素都含有各自不同的灰度级,由此带来的计算的复杂度将会增加。现有的识别方法中,通过从人脸图像中提取出特征信息,来对数据库进行检索的方法速度快,而利用拓扑属性图匹配来确定匹配度的方法则相对较快。
    

    1.5人脸识别的研究内容

    人脸识别技术(AFR)就是利用计算机技术,根据数据库的人脸图像,分析提取出有效的识别信息,用来“辨认”身份的技术。人脸识别技术的研究始于六十年代末七十年代初,其研究领城涉及图像处理、计算机视觉、模式识别、计算机智能等领城,是伴随着现代化计算机技术、数据库技术发展起来的综合交叉学科。
    1.5.1人脸识别研究内容

      人脸识别的研究范围广义上来讲大致包括以下hi个方面的内容。
    
      1.人脸定位和检测(Face Detection) :即从动态的场景与复杂的背景中检测出人臉的存在并且确定其位置,最后分离出来。这一任务主要受到光照、噪声、面部倾斜以及各种各样遮挡的影响。
    
      2.人脸表征(Face Representation) (也称人脸特征提取) :即采用某种表示方法来表示检测出人脸与数据库中的已知人脸。通常的表示方法包括几何特征(如欧氏距离、曲率、角度)、代数特征(如矩阵特征向量)、固定特征模板等。
    
      3.人脸识别(Face Recogni tion) :即将待识别的人脸与数据库中已知人脸比较,得出相关信息。这一过程的核心是选择适当的人脸表征方法与匹配策略。
    
      4.表情姿态分析(Expression/Gesture Analysis) :即对待识别人脸的表情或姿态信息进行分析,并对其加以归类。
    
    
      5.生理分类(Physical Classi fication) :即对待识别人脸的生理特征进行分析,得出其年龄、性别等相关信息,或者从几幅相关的图像推导出希望得到的人脸图像,如从父母图像推导出孩子脸部图像和基于年龄增长的人脸图像估算等。
    
      人臉识别的研究内容,从生物特征技术的应用前景来分类,包括以下两个方面:人脸验证与人脸识别。
    
      1.人脸验证((Face Veri ficat ion/Authenticat ion):即是回答“是不是某人?"的问题.它是给定一幅待识别人脸图像,判断它是否是某人的问题,属于一对一的两类模式分类问题,主要用于安全系统的身份验证。
    
      2.人脸识别(Face 。Recognition) :即是回答“是谁”的问题。它是给定-幅待识别人脸图像,再已有的人脸数据库中,判断它的身份的问题。它是个“-对多”的多类模式分类问题,通常所说的人脸识别即指此类问题,这也是本文的主要研究内容。
    

    1.5.2人脸识别系统的组成

      在人脸识别技术发展的几十年中,研究者们提出了多种多样的人脸识别方法,但大部分的人脸识别系统主要由三部分组成:图像预处理、特征提取和人脸的分类识别。一个完整的自动人脸识别系统还包括人脸检测定位和数据库的组织等模块,如图1.1.其中人脸检测和人脸识别是整个自动人脸识别系统中非常重要的两个环节,并且相对独立。下面分别介绍这两个环节。
    

    人脸检测与定位,检测图像中是否由人脸,若有,将其从背景中分割出来,并确定其在图
    像中的位置。在某些可以控制拍摄条件的场合,如警察拍罪犯照片时将人脸限定在标尺内,此时人脸的定位很简单。证件照背景简单,定位比较容易。在另一些情况下,人脸在图像
    中的位置预先是未知的,比如在复杂背景下拍摄的照片,这时人脸的检测与定位将受以下因素的影响: :

      1.人脸在图像中的位置、角度、不固定尺寸以及光照的影响:
    
      2.发型、眼睛、胡须以及人脸的表情变化等,3.图像中的噪声等。
    
      特征提取与人脸识别,特征提取之前一般都要敌几何归一化和灰度归一化的工作。前者指根据人脸定位结果将图像中的人脸变化到同一位置和大小:后者是指对图像进行光照补偿等处理,以克服光照变化的影响,光照补偿能够一定程度的克服光照变化的影响而提高识别率。提取出待识别的人脸特征之后,即进行特征匹配。这个过程是一对多或者一对一的匹配过程,前者是确定输入图像为图象库中的哪一个人(即人脸识别),后者是验证输入图像的人的身份是否属实(人脸验证).  
    

    以上两个环节的独立性很强。在许多特定场合下人脸的检测与定位相对比较容易,因此“特征提取与人脸识别环节”得到了更广泛和深入的研究。近几年随着人们越来越关心各种复杂的情形下的人臉自动识别系统以及多功能感知研究的兴起,人脸检测与定位才作为一个独立的模式识别问题得到了较多的重视。本文主要研究人脸的特征提取与分类识别的问题。

    2基于bp神经网络的人脸识别算法

      虽然人脸识别方法的分类标准可能有所不同,但是8前的研究主要有两个方向,一类是从人脸图像整体(Holistic Approaches)出发,基于图像的总体信息进行分类识别,他重点考虑了模式的整体属性,其中较为著名的方法有:人工神经网络的方法、统计模式的方法等。另一类是基于提取人脸图像的几何特征参数(Feature-Based Approaches), 例如眼、嘴和鼻子的特征,再按照某种距离准则进行分类识别。这种方法非常有效,因为人脸不是刚体,有着复杂的表情,对其严格进行特征匹配会出现困难。面分别介绍- -些常 用的方法,前两种方法属于从图像的整体方面进行研究,后三种方法主要从提取图像的局部特征讲行研究。
    
    
      2.1基于特征脸的方法
    

    特征脸方法(cigenface)是从生元分析方法PCA c Principal ComponentAnalysis 导出的一种人脸分析识别方法,它根据一-组人脸图像构造主元子空间,由于主元具有人脸的形状也称作特征脸。识别时将测试图像投影到主元子空间上得到了-组投影系数,然后和各个已知人的人脸图像进行比较识别,取得了很好的识别效果。在此基础上出现了很多特征脸的改进算法。

      特征脸方法原理简单、易于实现,它把人脸作为一个整体来处理,大大降低了识别复杂度。但是特征脸方法忽视了人脸的个性差异,存在着一定的理论缺陷。研究表明:特征脸方法随光线角度及人脸尺寸的影响,识别率会有所下降。
    

    2.2基于bp神经网络的方法

    一、实验要求采用三层前馈BP神经网络实现标准人脸YALE数据库的识别,编程语言为C系列语言。
    二、BP神经网络的结构和学习算法实验中建议采用如下最简单的三层BP神经网络,输入层为,有n个神经元节点,输出层具有m个神经元,网络输出为,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP神经网络的结构BP网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对BP网络加以训练,网络就具有输入输出对之间的映射能力。BP网络执行的是有教师训练,其样本集是由形如(输入向量,期望输出向量)的向量对构成的。在开始训练前,所有的权值和阈值都应该用一些不同的小随机数进行初始化。BP算法主要包括两个阶段:

    2.2.1向前传播阶段

    ①从样本集中取一个样本(Xp,Yp),将Xp输入网络,其中Xp为输入向量,Yp为期望输出向量。
    ②计算相应的实际输出Op。在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是下列运算:

    (2) 向后传播阶段
    ①计算实际输出Op与相应的理想输出Yp的差;
    ②按极小化误差的方法调整权矩阵。这两个阶段的工作一般应受到精度要求的控制

    (1)作为网络关于第p个样本的误差测度(误差函数)。

    (2)如前所述,之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,也称之为误差传播阶段。为了更清楚地说明本文所使用的BP网络的训练过程,首先假设输入层、中间层和输出层的单元数分别是N、L和M。X=(x0,x1,…,xN-1)是加到网络的输入矢量,H=(h0,h1,…,hL-1)是中间层输出矢量,Y=(y0,y1,…,yM-1)是网络的实际输出矢量,并且用D=(d0,d1,…,dM-1)来表示训练组中各模式的目标输出矢量。输出单元i到隐单元j的权值是Vij,而隐单元j到输出单元k的权值是Wjk。另外用θk和Φj来分别表示输出单元和隐单元的阈值。于是,中间层各单元的输出为:

    (3)而输出层各单元的输出是:

    其中f(*)是激励函数,采用S型函数:

    2.2.2在上述条件下,网络的训练过程如下:

    (1) 选定训练集。由相应的训练策略选择样本图像作为训练集。
    (2) 初始化各权值Vij,Wjk和阈值Φj,θk,将其设置为接近于0的随机值,并初始化精度控制参数ε和学习率α。
    (3) 从训练集中取一个输入向量X加到网络,并给定它的目标输出向量D。
    (4) 利用式(3)计算出一个中间层输出H,再用式(4)计算出网络的实际输出Y。
    (5) 将输出矢量中的元素yk与目标矢量中的元素dk进行比较,计算出M个输出

    误差项:

    对中间层的隐单元也计算出L个误差项:

    (6) 依次计算出各权值和阈值的调整量:

    (8) 当k每经历1至M后,判断指标是否满足精度要求:E≤ε,其中E是总误差函数。

    如果不满足,就返回(3),继续迭代。如果满足,就进入下一步。
    (9) 训练结束,将权值和阈值保存在文件中。这时可以认为各个权值已经达到稳定,分类器形成。再一次进行训练时,直接从文件导出权值和阈值进行训练,不需要进行初始化。

    YALE数据库是由耶鲁大学计算视觉与扼制中心创立,包括15位志愿者,每个人有11张不同姿势、光照和表情的图片,共计165张图片,图片均为80*100像素的BMP格式图像。我们将整个数据库分为两个部分,每个人的前5幅图片作为网络的训练使用,后6副图片作为测试使用。测试样例:

    输入输出:

      神经网络在人脸识别应用中有很长的历史。早期用于人脸识别的神经网络主要是Kohonen自联想映射神经网络,用于人脸的“回忆”。所谓“回忆”是指当输入图像上的人脸受噪声污染严重或部分缺损时,能用Kohonen网络恢复出原来完整的人脸。Intrator 等人用一个无监督/监督混合神经网络进行人脸识别。其输入是原始图像的梯度图像,以此可以去除光照的变化。监督学习目的是寻找类的特征,有监督学习的目的是减少训练样本被错分的比例。这种网络提取的特征明显,识别率高,如果用几个网络同时运算,求其平均,识别效果还会提高。
    
      与其他类型的方法相比,神经网络方法在人脸识别上有其独到的优势,它避免了复:杂的特征提取工作,可以通过学习的过程获得其他方法难以实现的关于人脸识别的规律和规则的隐性表达。此外,神经网络以时示方式处理信息,如果能用硬件实现,就能显著提高速度。神经网络方法除了用于人脸识别外,还适用于性别识别、种族识别等。
    

    2.3弹性图匹配法

    弹性图匹配方法是-种基于动态链接结构DLA C Dynamic Link Architecture的方法。它将人脸用格状的稀疏图表示,图中的节点用图像位置的Gabor小波分解得到的特征向量标记,图的边用连接节点的距离向量标记。匹配时,首先J找与输入图像最相似的模型图,再对图中的每个节点位置进行最佳匹配,这样产生-一个变形图,其节点逼近模型图的对应点的位置。弹性图匹配方法对光照、位移、旋转及尺度变化都敏感。此方法的主要缺点是对每个存储的人臉需计算其模型图,计算量大,存储量大。为此,Wiskott 在原有方法的基础上提出聚東图匹配,部分克服了这些缺点。在聚束图中,所有节点都已经定位在相应目标上。对于大量数据库,这样可以大大减少识别时间。另外,利用聚束图还能够匹配小同人的最相似特征,因此可以获得关于未知人的性别、胡须和眼镜等相关信息。
    2.4基于模板匹配的方法
    模板匹配法是一-种经典的模式识别方法,这种方法大多是用归一一化和互相关,直接计算两副图像之间的匹配程度。由于这种方法要求两副图像上的目标要有相同的尺度、取向和光照条件,所以预处理要做尺度归一化和灰度归一化的工作。最简单的人脸模板是将人脸看成-一个椭圆,检测人臉也就是检测图像中的椭圆。另一种方法是将人脸用一-组独立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板、眉毛模板和下巴模板等。但这些模板的获得必须利用各个特征的轮廓,而传统的基于边缘提取的方法很难获得较高的连续边缘。即使获得了可靠度高的边缘,也很难从中自动提取所需的特征量。模板匹配方法在尺度、光照、旋转角度等各种条件稳定的状态下,它的识别的效果优于其它方法,但它对光照、旋转和表情变化比较敏感,影响了它的直接使用。2.5基于人脸特征的方法人脸由眼睛、鼻子、嘴巴、下巴等部件构成,正因为这些部件的形状、大小和结构上的各种差异才使得世界上每个人脸千差万别,因此对这些部件的形状和结构关系的几何描述,可以作为人脸识别的重要特征。几何特征最早是用于人脸检测轮廓的描述与识别,首先根据检测轮廓曲线确定若干显著点,并由这些显著点导出- -组用于识别的特征度量如距离、角度等。采用儿何特征进行正面人脸识别一般是通过提取人眼、口、鼻等重要特征点的位置和眼睛等重要器官的几何形状作为分类特征。
    定位眼睛往往是提取人脸几何特征的第-步。由于眼睛的对称性以及眼珠呈现为低灰度值的圆形,因此在人脸图像清晰瑞正的时候,眼睛的提取是比较容易的。但是如果人脸图像模糊,或者噪声很多,则往往需要利用更多的信息(如眼睛和眉毛、鼻子的相对位置等),而且.这将使得眼睛的定位变得很复杂。而且实际图像中,部件未必轮廓分明,有时人用眼看也只是个大概,计算机提取就更成问题,因而导致描述同-一个人的不同人脸时,其模型参数可能相差很大,面失去识别意义。尽管如此,在正确提取部件以及表情变化微小的前提下,该方法依然奏效,因此在许多方面仍可应用,如对标准身份证照片的应用。

    2.5九个人脸库介绍

    1. FERET人脸数据库
      http://www.nist.gov/itl/iad/ig/colorferet.cfm
      由FERET项目创建,此图像集包含大量的人脸图像,并且每幅图中均只有一个人脸。该集中,同一个人的照片有不同表情、光照、姿态和年龄的变化。包含1万多张多姿态和光照的人脸图像,是人脸识别领域应用最广泛的人脸数据库之一。其中的多数人是西方人,每个人所包含的人脸图像的变化比较单一。

    2. CMU Multi-PIE人脸数据库
      http://www.flintbox.com/public/project/4742/
      由美国卡耐基梅隆大学建立。所谓“PIE”就是姿态(Pose),光照(Illumination)和表情(Expression)的缩写。CMU Multi-PIE人脸数据库是在CMU-PIE人脸数据库的基础上发展起来的。包含337位志愿者的75000多张多姿态,光照和表情的面部图像。其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要的测试集合。

    3. YALE人脸数据库(美国,耶鲁大学)
      http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
      由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照、表情和姿态的变化。
      Yale人脸数据库中一个采集志愿者的10张样本,相比较ORL人脸数据库Yale库中每个对象采集的样本包含更明显的光照、表情和姿态以及遮挡变化。

    4. YALE人脸数据库B
      https://computervisiononline.com/dataset/1105138686
      包含了10个人的5850幅在9种姿态,64种光照条件下的图像。其中的姿态和光照变化的图像都是在严格控制的条件下采集的,主要用于光照和姿态问题的建模与分析。由于采集人数较少,该数据库的进一步应用受到了比较大的限制。

    5. MIT人脸数据库
      由麻省理工大学媒体实验室创建,包含16位志愿者的2592张不同姿态(每人27张照片),光照和大小的面部图像。

    6. ORL人脸数据库
      https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
      由英国剑桥大学AT&T实验室创建,包含40人共400张面部图像,部分志愿者的图像包括了姿态,表情和面部饰物的变化。该人脸库在人脸识别研究的早期经常被人们采用,但由于变化模式较少,多数系统的识别率均可以达到90%以上,因此进一步利用的价值已经不大。
      ORL人脸数据库中一个采集对象的全部样本库中每个采集对象包含10幅经过归一化处理的灰度图像,图像尺寸均为92×112,图像背景为黑色。其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达20度。

    7. BioID人脸数据库
      https://www.bioid.com/facedb/
      包含在各种光照和复杂背景下的1521张灰度面部图像,眼睛位置已经被手工标注。

    8. UMIST图像集
      由英国曼彻斯特大学建立。包括20个人共564幅图像,每个人具有不同角度、不同姿态的多幅图像。

    9. 年龄识别数据集IMDB-WIKI
      https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
      包含524230张从IMDB和Wikipedia爬取的名人数据图片。应用了一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对于得到的分数和0-100相乘,并将最终结果求和,得到最终识别的年龄

    3matlab分析人脸方法介绍
    人脸识别之一:查找图片中的人脸并用方框圈出
    这种类似于智能手机拍照时,屏幕里那个框任务头部的红框。大致步骤为:获取RGB图片—>转换为灰度图像—>图像处理—>人脸识别。代码如下:clear all
    clc

    %获取原始图片
    i=imread(‘face.jpg’);
    I=rgb2gray(i);
    BW=im2bw(I); %利用阈值值变换法将灰度图像转换成二进制图像
    figure(1);
    imshow(BW);
    %最小化背景
    [n1 n2]=size(BW);
    r=floor(n1/10);
    c=floor(n2/10);
    x1=1;x2=r;
    s=r*c;

    for i=1:10
    y1=1;y2=c;
    for j=1:10
    if(y2<=c || y2>=9c) || (x11 || x2r10)
    loc=find(BW(x1:x2,y1:y2)==0);
    [o p]=size(loc);
    pr=o*100/s;
    if pr<=100
    BW(x1:x2,y1:y2)=0;
    r1=x1;r2=x2;s1=y1;s2=y2;
    pr1=0;
    end
    imshow(BW);
    end
    y1=y1+c;
    y2=y2+c;
    end
    x1=x1+r;
    x2=x2+c;
    end
    figure(2)
    subplot(1,2,1);
    imshow(BW)
    title(‘图像处理’);
    %人脸识别
    L=bwlabel(BW,8);
    BB=regionprops(L,‘BoundingBox’);
    BB1=struct2cell(BB);
    BB2=cell2mat(BB1);

    [s1 s2]=size(BB2);
    mx=0;
    for k=3:4:s2-1
    p=BB2(1,k)*BB2(1,k+1);
    if p>mx && (BB2(1,k)/BB2(1,k+1))<1.8
    mx=p;
    j=k;
    end
    end
    subplot(1,2,2);
    title(‘人脸识别’);
    imshow(I);
    hold on;
    rectangle(‘Position’,[BB2(1,j-2),BB2(1,j-1),BB2(1,j),BB2(1,j)],‘EdgeColor’,‘r’)实验效果图:

             从实验效果图中,可以看出红框框出了人脸部分。
    

    人脸识别之二:由输入的人像识别出数据库中人像
    这种情况类似于手机人脸解锁,通过当前的人脸去和保存的人脸做比对来实现解锁等功能;从网上看了好多资料,由于个人能力有限大多都没仿真出来,最后通过学习PCA算法,了解到可通过PCA算法对输入矩阵降维,提取特征值和特征向量的方式来做人脸比对。具体的PCA的东西在这里不作介绍,主要介绍一下如何实现人脸比对。
    大致步骤:制作人脸数据样本—>PCA提取样本数据特征值—>人脸比对1.人脸样本
    从网上搜集了10张人脸图片,来制作成样本。

                         %读取转换10张图片,生成数据矩阵function ImgData = imgdata()  
    

    %导入图片
    picture1 = rgb2gray(imread(‘1.jpg’));
    picture2 = rgb2gray(imread(‘2.jpg’));
    picture3 = rgb2gray(imread(‘3.jpg’));
    picture4 = rgb2gray(imread(‘4.jpg’));
    picture5 = rgb2gray(imread(‘5.jpg’));
    picture6 = rgb2gray(imread(‘6.jpg’));
    picture7 = rgb2gray(imread(‘7.jpg’));
    picture8 = rgb2gray(imread(‘8.jpg’));
    picture9 = rgb2gray(imread(‘9.jpg’));
    picture10 = rgb2gray(imread(‘10.jpg’));
    [m,n] = size(picture1);
    picture_ten = {picture1,picture2,picture3,picture4,picture5,picture6,picture7,picture8,picture9,picture10};
    for i=1:10
    %把mn的矩阵变换成1(mn)的矩阵
    ImgData(i,:) = reshape(picture_ten{i},1,m
    n);
    end
    %数据范围缩小到0到1之间
    ImgData = double(ImgData)/255;

    PCA分析function Cell_ten = PCA(imgdata,k)
    [m,n] = size(imgdata);
    img_mean = mean(imgdata); %计算每列平均值
    img_mean_ten = repmat(img_mean,m,1); %复制m行平均值至矩阵img_mean_ten
    Z = imgdata - img_mean_ten;
    T = Z’Z;%协方差矩阵
    [V,D] = eigs(T,k); %计算T中最大的前k个特征值与特征向量
    img_new = imgdata
    V*D; %低维度下的各个人脸的数据
    Cell_ten = {img_new,V,D};3.通过输入测试人脸从数据库中找到相对应人脸function face= facefind(Cell_ten,testdata)%此函数代码借鉴于他人,还未征求其同意,这里就暂时略过这里testdata是测试图片的数据4.主程序调用img=imgdata(); %图片矩阵数据
    Cell_ten=PCA(img,2);% PCA
    face1=facefind(Cell_ten,imread(‘test.jpg’));%识别
    subplot(1,2,1)
    imshow(‘test.jpg’)
    title(‘测试图像’)
    subplot(1,2,2)
    imshow(strcat(num2str(face1),’.jpg’))
    title(‘数据库图像’)测试效果: 使用这个方式可以实现简单的人脸识别,但精确度不高;

    4 分析算法
    在人脸识别系统中有许多关键环节,其中最重要的莫过于特征提取。利用主成分分析法(PCA)进行特征提取是目前应用最多的提取方法。作为一种科学的统计方法,它在模式识别、信号处理、数字图像处理等等领域都有广泛涉猎。基于PCA中空间原始数据主要特征提取,减少数据冗余的思想,一些在低维特征空间的数据被处理,并合理保留了原始数据中有用的信息,数据空间中维数过高的问题也得以解决。
    4.1  主成分分析的基本原理

    实际上主成分分析就是一种数学降维演算方法,用若干个综合变量来代替原本更多的变量,让这些综合变量尽可能的实现对原有变量信息的取代,并保持彼此之间不存在关联。这种多变量化为少数相互无关的变量且信息量不变的统计分析方法就叫做主成分分析法。
      假设F1表示原变量的首个线性组合所组成的主要成分指标,就有F1=a11X1+a21X2+…ap1Xp。根据这个数学式可知,如果在每一个主成分中提取一个信息量,即可用方差(F1)进行度量,随着方差F1的增大,F1所包含的信息也就越多,同时它的线性组合选取也可表示为X1、X2…XP,它们都被称为方差F1中的第一主成分。如果第一主成分不足以代表原有的P个变量信息时,就可以考虑选取F2,即第二个线性组合,借由它来反映原本的有效信息。在F2中可以不显示第一主成分中已有的信息,以数学语言来表达要求的话即Cov(F1,F2)=0,其中F2为第二主成分。所以按照实际原变量的变化需求,就可以构造出多个主成分指标。
      4.2人脸识别的技术特点

    人脸识别是模式识别中的重要分支,它是指通过计算机系统来分析人脸图像,从中获取有价值的识别信息,从而辨识身份。所以说从技术特点上来看,人脸识别具有以下几个关键特色。
     1、PCA算法
    算法大致步骤:
    设有m条n维数据。
    1)将原始数据按列组成n行m列矩阵X;
    2)将X的每一行(这里是图片也就是一张图片变换到一行)进行零均值化,即减去这一行的均值(样本中心化和标准化);将所有的样本融合到一个矩阵里面特征向量就是变换空间的基向量U=[u1,u2,u3,u4,…],脑袋里面要想到一个样本投影变换就是该空间的一个点,然后对于许多点可以用KNN等不同的方法进行分类。
    3)求出协方差矩阵C=1mXXTC=1mXXT C=\frac {1 }{m } XX^TC=m1XXT;
    4)求出协方差矩阵的特征值及对应的特征向量;
    5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
    6)Y=PXY=PX Y=PXY=PX即为降维到kk kk维后的数据。
      对数据进行中心化预处理,这样做的目的是要增加基向量的正交性,便于高维度向低纬度的投影,即便于更好的描述数据。
      对数据标准化的目的是消除特征之间的差异性,当原始数据不同维度上的特征的尺度不一致时,需要标准化步骤对数据进行预处理,使得在训练神经网络的过程中,能够加速权重参数的收敛。
      过中心化和标准化,最后得到均值为0,标准差为1的服从标准正态分布的数据。
      求协方差矩阵的目的是为了计算各维度之间的相关性,而协方差矩阵的特征值大小就反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大(越有投影的必要,矩阵相乘的过程就是投影),故而选取合适的前k个能以及小的损失来大量的减少元数据的维度。

    2、PCA原理推导
    基于K-L展开的PCA特征提取:

    5.算法优化方法
    我用了三种方法对其进行优化
    1.采用动量梯度下降算法训练 BP 网络。
    训练样本定义如下:
    输入矢量为
    p =[-1 -2 3 1
    -1 1 5 -3]
    目标矢量为 t = [-1 -1 1 1]
    2. 采用贝叶斯正则化算法提高 BP 网络的推广能力。在本例中,我们采用两种训练方法,即 L-M 优化算法(trainlm)和贝叶斯正则化算法(trainbr),用以训练 BP 网络,使其能够拟合某一附加有白噪声的正弦样本数据。其中,样本数据可以采用如下MATLAB 语句生成:
    输入矢量:P = [-1:0.05:1];
    目标矢量:randn(’seed’,78341223);
    T = sin(2piP)+0.1randn(size§);
    3. 采用“提前停止”方法提高 BP 网络的推广能力。对于和例 2相同的问题,在本例中我们将采用训练函数 traingdx 和“提前停止”相结合的方法来训练 BP 网络,以提高 BP 网络的推广能力。在利用“提前停止”方法时,首先应分别定义训练样本、验证样本或测试样本,其中,验证样本是必不可少的。在本例中,我们只定义并使用验证样本,即有
    验证样本输入矢量:val.P = [-0.975:.05:0.975]
    验证样本目标矢量:val.T = sin(2
    pival.P)+0.1randn(size(val.P))
    值得注意的是,尽管“提前停止”方法可以和任何一种 BP 网络训练函数一起使用,但是不适合同训练速度过快的算法联合使用,比如 trainlm 函数,所以本例中我们采用训练速度相对较慢的变学习速率算法 traingdx 函数作为训练函数。
    参考文献

    [1] HongZiquan.AlgbricFeatureExcaciofmftfoReonino[JPatteo Recognition. 1991. 22 (1) :43~44.
    [2] Yuille A L Detcction Templates for Face Recognitio[JCognitive Neuroscience , 1991. 191-200
    [3]卢春雨张长水局城区城特征的快速人脸检测法[D北京:清华大学学报.1999.96 (1) ;4-6.
    [4]陈刚,减飞虎实用人脸识别系统的本征脸法实现[D]2001年5月230():45-46.
    [
    5]杜平,徐大为,刘重庆,基F整体特征的人脸识别方法的研究[12003年6月49 (3) ;382-383.
    [6] Chow G, Li X. Towards A System for Automatic Facial Feature Detctio[U] 1993. 2903)2-3.
    [7]杨变若,王煎法,杨未来人脸全局特iE识别研究[Z]1997年11月3(5):; 871-875.
    [8]边肇棋,张学工阎平凡等模式识别D]北京:清华大学出版社2000 302)16-17.

    致 谢

      从毕业设计的选题到论文的指导到最后定稿,期间遇到了无数的困难和阻碍,也曾想过对自己降低要求,也曾想过放弃最初想要坚持的设计,但是最后在孙老师和同学的鼓励和陪伴下,努力克服了所有的困难,独立完成了毕业设计和论文的书写。尤其是要感射我的论文指导老师孙老师,不厌其烦的对我的设计进行指导修改,耐心的帮助我改进设计帮助我搜集相关的资料,感谢孙老师如母亲--般的关怀,在孙老师身上不仅学习到了对学术严谨的态度,更被孙老师亲切无私的个人魅力所感染。
    
      还要感谢我的同学和其他所有的老师,他们严谨的学术态度,宽容待人严于律己的处世风范都使我受益良多。
    
    展开全文
  • EndNote导出毕业论文格式的参考文献

    万次阅读 多人点赞 2019-11-08 21:56:30
    之前一篇博客已经介绍了EndNote的安装与使用,详情请参考这篇链接https://blog.csdn.net/weixin_43876801/article/details/102875900 下面开始介绍小编在写毕业论文(准确来说是开题报告,格式都一样)遇到的参考...

    导读

    • word里自动排列文献(小编习惯latex编排,但是毕设要求是中文的格式,所以endnote对于word来讲极其好用)
    • 之前一篇博客已经介绍了EndNote的安装与使用,详情请参考这篇链接https://blog.csdn.net/weixin_43876801/article/details/102875900
    • 下面开始介绍小编在写毕业论文(准确来说是开题报告,格式都一样)遇到的参考文献导出问题。

    模板下载与安装

    模板一(endnote官方)

    • Chinese Standard GB/T7714 (numeric)
    • https://endnote.com/downloads/styles/
    • 打开上方链接,输入如下:在这里插入图片描述
    • 选择,下载。
      在这里插入图片描述
    • 安装
    • 将下载的样式放在安装文件的Styles文件下方在这里插入图片描述
    • 打开EndNote,添加刚才下载的样式(教程参考
      - 在这里插入图片描述
    • 在word里同样设置
      在这里插入图片描述
    • endnote里选中要导入的参考文献,在word里点导入
      在这里插入图片描述
      在这里插入图片描述
    • 我们来看格式如下:
      在这里插入图片描述

    模板二(推荐使用)

    • H Zeng 根据一个名为 geebinf 的模板改编。原模板的注解中提到,作者应该是南开大学的 Geebin Oyang。
    • 点此链接直接下载https://cnzhx.net/dl/other/ZZ_MODIFIED_GEEBINF.ENS.zip
    • 安装如同模板一
    • 问题注意:win10与Endnote X9的之间的一个小问题
      解决(1)关闭所有的office,把下载的样式放在endnote-styles里,关闭endnote。
      (2)重新打开office word。
      (3)小编亲测此方法可以解决,若有问题下方留言。
    • 在这里插入图片描述在这里插入图片描述
      参考链接 https://cnzhx.net/blog/endnote-output-style-cnzhx/#dl

    总结

    • 小编建议您使用第二种格式呢,导出的文献作者是首字母大写,不会出现第一种全部大写的情况。当然只是个人建议,如果您觉得不是问题可下载官网推荐的第一种,影响的话后期可手动调整。
    • 任何安装下载问题都可以下方里留言,小编会及时回复帮您解决。
    • 如果觉得帮助您了,点个赞吧~~~
    展开全文
  • 如何读一篇优秀的计算机论文

    千次阅读 2016-08-28 20:26:13
     论文的要求  我对硕士论文的基本要求是:  (1)论文的主要内容,是叙述一套方法在个特定场合中的应用。  (2)这套方法必须要有所创新或突破,并因而对学术界有所贡献。因此,它或
    作者:李洲
    链接:https://www.zhihu.com/question/20169638/answer/18205965
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。

     一、论文的要求
      我对硕士论文的基本要求是:
      (1)论文的主要内容,是叙述一套方法在一个特定场合中的应用。
      (2)这套方法必须要有所创新或突破,并因而对学术界有所贡献。因此,它或者是解决既有问题的新方法,或者是既有方法的新应用,或者是以一个新的方法开启一整片新的应用领域。
      (3)在论文中,你必须要有能力提出足够的证据来让读者信服说:针对这个应用场合,你所提出来的方法确实有比文献中一切既有方法更优越之处。
      (4)此外,你必须要能清楚指出这个方法在应用上的限制,并且提出充分证据来说服读者:任何应用场合,只要能够满足你所提出来的假设(前提)条件,你的方法就一定适用,而且你所描述的优点就一定会存在。
      (5)你还必须要在论文中清楚指出这个方法的限制和可能的缺点(相对于其它文献上的既有方法,或者在其它应用场合里)。假如飧龇椒ㄓ腥魏沃卮笕钡悖诳谑允辈疟豢谑晕敝赋隼矗浜蠊锌赡苁锹畚奈薹ㄍü?nbsp;
      (6)行文风格上,它是一篇论证严谨,逻辑关系清晰,而且结构有条理的专业论述。也就是说,在叙述你的方法的过程,你必须要清清楚楚地交代这个方法的应用程序以及所有仿真或实验结果的过程,使得这个专业领域内的任何读者,都有办法根据你的描述,在他的实验室下复制出你的研究成果,以便确定你的结论确实是可以「在任何时间、任何地点、任何人」都具有可重复性(可重复性是「科学」的根本要求)。
      (7)而且,你对这个方法的每一个步骤都必须要提供充分的理由说明「为什么非如此不可」。
      ( 8)最后,你的论文必须要在适当位置清楚注明所有和你所研究之题目相关的文献。而且,你必须要记得:只要是和你所研究的问题相关的学术文献(尤其是学术期刊论文),你都有必要全部找出来(如果漏掉就是你的过失),仔细读过。假如你在学位论文口试时,有口试委员指出有一篇既有文献,在你所讨论的问题中处理得比你的方法还好,这就构成你论文无法及格的充分理由。
      (9)第(2)款所谓「对学术界的贡献」,指的是:把你的所有研究成果扣除掉学术界已经发表过的所有成果(不管你实际上有没有参考过,没有参考过也算是你的重大过失),剩下的就是你的贡献。假如这个贡献太少,也构成你论文无法及格的充分理由。
      上面所叙述的九款要件中,除第(2)款之外,通通都是必须要做到的,因此没有好坏之分。一篇硕士论文的好坏(以及成绩的评定标准),主要是看第(2)款所谓「对学术界的贡献」的多寡与重要性而定。假如你要申请国外的博士班,最重要的也是看你的硕士论文有什么「贡献」而定(这往往比TOFEL、GRE、GPA还重要)。
      一个判断硕士论文的好坏有一个粗浅办法:假如你的研究成果可以在国外著名学术期刊(journals,而非 magazines)上发表,通常就比一篇只能在国外学术会议(conferences)上发表的硕士论文贡献多;一篇国外学术会议的论文又通常比无法发表的论文贡献多;在国际顶尖学术期刊上发表的论文通常比一篇二流的学术期刊论文贡献多。SCI有一种叫做 Impact Factor 的指数,统计一个期刊每篇论文被引述的次数。通常这个次数(或指数)愈高,对学术界的影响力就愈大。以机械视觉相关领域的期刊而言,Impact Factor 在 1.0 以上的期刊,都算是顶尖的期刊。这些期刊论文的作者,通常是国外顶尖学府的著名教授指导全球一流的博士生做出来的研究成果。

    二、完成硕士论文所需要的能力
      从前面的叙述可以归纳出来,完成硕士论文所需要的能力包括以下数项,依它们的培养先后次序逐项讨论。
      (1)资料检索的能力:在给定(或自己拟定)的题目范围内,你必须有能力利用文资料索引系统,查出所有相关的论文,而无任何遗漏(否则你可能在论文口试时才发现同一个题目已经有人发表过了)。你到底要用什么样的关键词和查所程序去保证你已经找出所有相关的文献?这是第一个大的挑战。每一组关键词(包含联集与交集)代表一个论文所构成的集合,假如你用的关键词不恰当,你可能找到的集合太小,没有涵盖所有的相关文献;假如你用的关键词太一般化(譬如「image」),通常你找到的集合会太大,除了所有相关文献之外还加上好几十倍的毫不相关的文献。
      (2)资料筛选的能力:即使你使用了恰当的搜寻策略,通常找到的文献集合都还是明显地比你所需要的集合大,而且通常文献比数大概在一两百篇或数百篇之间,而其中会和你的的研究子题直接且密切相关的论文,通常只有廿、卅篇左右。你如何可以只读论文的题目、摘要、简介和结论,而还没有完全看懂内文,就准确地判断出这篇论文中是否有值得你进一步参考的内容,以便快速地把需要仔细读完的论文从数百篇降低到廿、卅篇?这考验着你从事资料筛选的能力。
      (3)期刊论文的阅读能力:期刊论文和大学部的课本截然不同。大学部的课本是寻次渐进地从最基本的知识背景逐步交代出整套有系统的知识,中间没有任何的跳跃,只要你逐页读下去,就可以整本都读懂,不需要在去别的地方找参考资料。但是期刊论文是没头没尾的十几页文献,只交代最核心的创意,并援引许多其它论文的研究成果(但只注明文献出处,而完全没有交代其内容)。因此,要读懂一篇论文,一定要同时读懂数篇或十数篇被援引的其它论文。偏偏,这十几篇被援引的论文又各自援引十数篇其它论文。因此,相对于大学部的教科书而言,期刊论文是一个极端没有系统的知识,必须要靠读者自己从几十篇论文中撷取出相关的片段,自己组织成一个有系统的知识,然后才有办法开始阅读与吸收。要培养出这种自己组织知识的能力,需要在学校靠着大量而持续的时间去摸索、体会,而不可能只利用业余的零星时间去培养。因此,一个大学毕业后就不再念研究所的学生,不管他在毕业生和大学毕业生最大的差别,就是:学士只学习过吸收系统知识的能力(也就是读别人整理、组织好的知识,典型的就是课本);但硕士则学习过自己从无组织的知识中检索、筛选、组织知识的能力。
      (4)期刊论文的分析能力:为了确定你的学位论文研究成果确实比所有相关的学术期刊论文都更适合处理你所拟定的应用场域,首先你必须要有能力逐篇分析出所有相关期刊论文的优点与缺点,以及自己的研究成果的优点与缺点,然后再拿他们来做比较,总结出你的论文的优点和缺点(限制)。但是,好的期刊论文往往是国外著名学府的名师和一流的博士生共同的研究成果,假如你要在锁定的应用场域上「打败」他们,突出自己的优点,这基本上是一个极端困难的挑战。即使只是要找出他们的缺点,都已经是一个相当困难的工作了。一个大学毕业生,四年下来都是假定「课本是对的」这样地学下来的,从来没有学习如何分析课本知识的优缺点,也就是「只有理解的能力,而没有批判的能力」。硕士生则必须要有「对一切既有进行精确批判」的能力。但是,这个批判并非个人好恶或情绪化的批判,而是真的找得到充分理由去支持的批判。这个批判的能力,让你有能力自己找到自己的优、缺点,因此也有机会自己精益求精。所以,一个大学毕业生在业界做事的时候,需要有人指导他(从事批判性检验),帮他找出缺点和建议改进的可能性。但是,一个严格训练过的合格硕士,他做事的时候应该是不需要有人在背后替他做检证,他自己就应该要有能力分析自己的优、缺点,主动向上级或平行单位要求支持。其实,至少要能够完成这个能力,才勉强可以说你是有「独立自主的判断能力」。
      (5)创新的能力:许多大学毕业的工程师也能创新,但是硕士的创新是和全世界同一个学术团体内所有的名师和博士生挑战。因此,两者是站在不同的比较基础上在进行的:前者往往是一个企业内部的「闭门造车」,后者是一个全球的开放性竞争。其次,工程师的创新往往是无法加以明确证明其适用条件,但是学术的创新却必须要能够在创新的同时厘清这个创新的有效条件。因此,大学毕业生的主要能力是吸收既有知识,但硕士毕业生却应该要有能力创造知识。此外,台湾历年来工业产品的价位偏低,这一部分是因为国际大厂的打压以及国际消费者的信任不易建立。但是,另一方面,这是因为台湾的产品在品质上无法控制,因此只好被当作最粗糙的商品来贩卖。台湾的产品之所以无法有稳定的品质,背后的技术原因就是:各种创新都是只凭一时偶然的巧思,却没有办法进一步有系统地厘清这些巧思背后可以成立的条件。但是,创新其实是可以有一套「有迹可寻」的程序的,这是我最得意的心得,也是我最想教的。

    三、为什么要坚持培养阅读与分析期刊论文的能力
      我所以一直坚持要训练研究生阅读与分析期刊论文的能力,主要是为了学生毕业后中长期的竞争力着想。
      台湾从来都只生产国外已经有的产品,而不事创新。假如国外企业界比国外学术的技术落后三年,而台湾的技术比国外技术落后五年,则台湾业界所需要的所有技术都可以在国外学术期刊上找到主要的理论依据和技术核心构想(除了一些技术的细节和 know how 之外)。因此,阅读期刊的能力是台湾想要保持领先大陆技术的必备条件。
      此外,只要能够充分掌握阅读与分析期刊论文的技巧,就可以水到渠成地轻松进行「创新」的工作。所以,只要深入掌握到阅读与分析期刊论文的技巧,就可以掌握到大学生不曾研习过的三种能力:(1)自己从无组织的知识中检索、筛选、组织知识的能力、(2)对一切既有进行精确批判的独立自主判断能力、(3)创造新知识的能力。
      创新的能力在台湾一直很少被需要(因为台湾只会从国外买整套设备、制程和设计与制造的技术)。但是,大陆已经成为全球廉价品制造中心,而台商为了降低成本也主动带技术到大陆设厂(包括现在的晶元代工),因此整个不具关键性技术的制造业都会持续往大陆移动;甚至 IC 的设计(尤其数字的部分)也无可避免地会迅速朝向「台湾开系统规格,进行系统整合,大陆在前述架构下开发特定数位模块」的设计代工发展。因此,未来台湾将必然会被逼着朝愈来愈创意密集的创意中心走(包括商务创意、经营创意、产品创意、与技术创新)。因此,不能因为今天台湾的业界不需要创新的能力,就误以为自己一辈子都不需要拥有创新的能力。
      我在协助民间企业发展技术研发的过程中,碰到过一位三十多岁的厂长。他很聪明,但从小家穷,被环境逼着去念高工,然后上夜校读完工专。和动态性能( bandwidth、response speed等)无关的技术他都很深入,也因为产品升级的需要而认真向我求教有关动态性能的基本观念。但是,怎么教他都不懂,就只因为他不懂工程数学。偏偏,工程数学不是可以在工厂里靠自修读会的。一个那么聪明的人,只因为不懂工数,就注定从三十岁以后一辈子无法在专业上继续成长!他高工毕业后没几年,廿多岁就当课长,家人与师长都以他为荣;卅岁当厂长,公司还给他技术股,前途无量;谁想得到他会在卅岁以后被逼着「或者升级,或者去大陆,或者失业」?
      每次想起这位厂长,看着迫不急待地要到台积电去「七年赚两千万退休金」的学生,或者只想学现成可用的技术而不想学研究方法的学生,我总忍禁不住地要想:十年后,我教过的学生里,会不会有一堆人就只因为不会读期刊论文而被逼提前退休?
      再者,技术的创新并不是全靠聪明。我熟谙一套技术创新的方法,只要学会分析期刊论文的优缺点,就可拿这套方法分析竞争对手产品的优缺点;而且,只要再稍微加工,就可以从这套优缺点的清单里找到突破瓶颈所需的关键性创意。这套创新程序,可以把「创新」变成不需要太多天分便可以完成的事,从而减轻创意的不定性与风险性。因此,只要会分析论文,几乎就可以轻易地组合出你所需要的绝大部分创意。聪明是不可能教的,但这套技巧却是可以教的;而且只要用心,绝大部分硕士生都可以学会。
      就是因为这个原因,我的实验室整个训练的重心只有一个:通过每周一次的 group meeting,培养学生深入掌握阅读与分析期刊论文的技巧,进而培养他们在关键问题上突破与创新的能力。

    四、期刊论文的分析技巧与程序
      一般来讲,好的期刊论文有较多的创意。虽然读起来较累,但收获较多而深入,因此比较值得花心思去分析。读论文之前,参考SCI Impact Factor 及学长的意见是必要的。
      一篇期刊论文,主要分成四个部分。
      (1)Abstract:
      说明这篇论文的主要贡献、方法特色与主要内容。最慢硕二上学期必须要学会只看 Abstract 和Introduction便可以判断出这篇论文的重点和你的研究有没有直接关连,从而决定要不要把它给读完。假如你有能力每三十篇论文只根据摘要和简介便能筛选出其中最密切相关的五篇论文,你就比别人的效率高五倍以上。以后不管是做事或做学术研究,都比别人有能力从更广泛的文献中挑出最值得参考的资料。
      (2)Introduction:
      Introduction 的功能是介绍问题的背景和起源,交代前人在这个题目上已经有过的主要贡献,说清楚前人留下来的未解问题,以及在这个背景下这篇论文的想解决的问题和它的重要性。对初学的学生而言,从这里可以了解以前研究的概况。通常我会建议初学的学生,对你的题目不熟时,先把跟你题目可能相关的论文收集个 30~40篇,每篇都只读Abstract 和 Introduction,而不要读 Main Body(本文),只在必要时稍微参考一下后面的 Illustrative examples和 Conclusions,直到你能回答下面这三个问题:(2A)在这领域内最常被引述的方法有哪些?(2B)这些方法可以分成哪些主要派别?(2C)每个派别的主要特色(含优点和缺点)是什么?
      问题是,你怎么去找到这最初的30~40篇论文?有一种期刊论文叫做「review paper」,专门在一个题目下面整理出所有相关的论文,并且做简单的回顾。你可以在搜寻 Compendex 时在 keywords 中加一个「review」而筛选出这类论文。然后从相关的数篇review paper 开始,从中根据 title 与 Abstract 找出你认为跟你研究题目较相关的30~40篇论文。
      通常只要你反复读过该领域内30~40篇论文的Abstract 和 Introduction,你就应该可以从Introduction的评论中回答(2A)和(2B)这两个问题。尤其要记得,当你阅读的目的是要回答(2A)和(2B)这两个问题时,你一定要先挑那些 Introduction写得比较有观念的论文念(很多论文的Introduction 写得像流水帐,没有观念,这种论文刚开始时不要去读它)。假如你读过假如30~40篇论文的 Abstract 和 Introduction之后,还是回答不了(2C),先做下述的工作。
      你先根据(2A)的答案,把这领域内最常被引述的论文找齐,再把他们根据(2B)的答案分成派别,每个派别按日期先后次序排好。然后,你每次只重新读一派的 Abstract 和 Introduction(必要时简略参考内文,但目的只是读懂Introduction内与这派有关的陈述,而不需要真的看懂所有内文),照日期先后读 ,读的时候只企图回答一个问题:这一派的创意与主要诉求是什么?这样,你逐派逐派地把每一派的Abstract 和 Introduction 给读完,总结出这一派主要的诉求 、方法特色和优点(每一篇论文都会说出自己的优点,仔细读就不会漏掉)。
      其次,你再把这些论文拿出来,但是只读Introduction,认真回答下述问题:「每篇论文对其它派别有什么批评?」然后你把读到的重点逐一记录到各派别的「缺点」栏内。
      通过以上程序,你就应该可以掌握到(2A)、(2B)、和(2C)三个问题的答案。这时你对该领域内主要方法、文献之间的关系算是相当熟捻了,但是你还是只仔细 读完Abstract 和 Introduction而已,内文则只是笼统读过。
      这时候,你已经掌握到这领域主要的论文,你可以用这些论文测试看看你用来搜寻这领域论文的 keywords 到底恰不恰当,并且用修正过的 keywords 再搜寻一次论文,把这领域的主要文献补齐,也把原来30~40篇论文中后来发现关系较远的论文给筛选掉,只保留大概20篇左右确定跟你关系较近的文献。如果有把握,可以甚至删除一两个你不想用的派别(要有充分的理由),只保留两、三个派别(也要有充分的理由)继续做完以下工作。
      然后你应该利用(2C)的答案,再进一步回答一个问题(2D):「这个领域内大家认为重要的关键问题有哪些?有哪些特性是大家重视的优点?有哪些特性是大家在意的缺点?这些优点与缺点通常在哪些应用场合时会比较被重视?在哪些应用场合时比较不会被重视?」然后,你就可以整理出这个领域(研究题目)主要的应用场合,以及这些应用场合上该注意的事项。
      最后,在你真正开始念论文的 main body 之前,你应该要先根据(2A)和(2C的答案,把各派别内的论文整理在同一个档案夹里,并照时间先后次序排好。然后依照这些派别与你的研究方向的关系远近,一个派别一个派别地逐一把各派一次念完一派的 main bodies。 (3)Main body(含simulation and/or experimental examples):
      在你第一次有系统地念某派别的论文 main bodies 时,你只需要念懂:(3A)这篇论文的主要假设是什么(在什么条件下它是有效的),并且评估一下这些假设在现实条件下有多容易(或多难)成立。愈难成立的假设,愈不好用,参考价值也愈低。(3B)在这些假设下,这篇论文主要有什么好处。(3C)这些好处主要表现在哪些公式的哪些项目的简化上。至于整篇论文详细的推导过程,你不需要懂。除了三、五个关键的公式(最后在应用上要使用的公式,你可以从这里评估出这个方法使用上的方便程度或计算效率,以及在非理想情境下这些公式使用起来的可靠度或稳定性)之外,其它公式都不懂也没关系,公式之间的恒等式推导过程可以完全略过去。假如你要看公式,重点是看公式推导过程中引入的假设条件,而不是恒等式的转换。

    但是,在你开始根据前述问题念论文之前,你应该先把这派别所有的论文都拿出来,逐篇粗略地浏览过去(不要勉强自己每篇或每行都弄到懂,而是轻松地读,能懂就懂,不懂就不懂),从中挑出容易念懂的 papers,以及经常被引述的论文。然后把这些论文照时间先后次序依序念下去。记得:你念的时候只要回答(3A)、( 3B)、(3C)三个问题就好,不要念太细。
      这样念完以后,你应该把这一派的主要发展过程,主要假设、主要理论依据、以及主要的成果做一个完整的整理。其次,你还要在根据(2D)的答案以及这一派的主要假设,进一步回答下一个问题:(3D)这一派主要的缺点有哪些。最后,根据( 3A)、(3B)、(3C)、(3D)的答案综合整理出:这一派最适合什么时候使用,最不适合什么场合使用。
      记住:回答完这些问题时,你还是不应该知道恒等式是怎么导出来的!
      当你是生手的时候,你要评估一个方法的优缺点时,往往必须要参考它Examples。但是,要记得:老练的论文写作高手会故意只 present 成功的案例而遮掩失败的案例。所以,simulation examples and/or experiments 很棒不一定表示这方法真的很好。你必须要回到这个方法的基本假设上去,以及他在应用时所使用的主要公式(resultant equations)去,凭自己的思考能力, 并且参考(2C)和(2D)的答案,自己问问看:当某某假设在某些实用场合上无法成立时,这个方法会不会出什么状况?猜一猜,预测一下这个方法应该会在哪些条件下(应用场合)表现优异,又会在哪些条件下(应用场合)出状况?根据这个猜测再检验一次simulation examples and/or experiments,看它的长处与短处是不是确实在这些examples 中充分被检验,且充分表现出来。
      那么,你什么时候才需要弄懂一篇论文所有的恒等式推导过程,或者把整篇论文细细读完?NEVER!你只需要把确定会用到的部分给完全搞懂就好,不确定会不会用到的部分,只需要了解它主要的点子就够了。
      硕士生和大学生最主要的差别:大学生读什么都必须要从头到尾都懂,硕士生只需要懂他用得着的部分就好了!大学生因为面对的知识是有固定的范围,所以他那样念。硕士生面对的知识是没有范围的,因此他只需要懂他所需要的细腻度就够了。硕士生必须学会选择性的阅读,而且必须锻炼出他选择时的准确度以及选择的速度,不要浪费时间在学用不着的细节知识!多吸收「点子」比较重要,而不是细部的知识。

    五、方法与应用场合特性表(有迹可寻的创意程序)
      试着想象说你从上图中论文阅读步骤的第(4)与(5)步骤分别获得以下两张表:譬如,当你的题目是「如何标定fiducial mark 之中心位置」,你就必须要仔细搜寻出文献上所有可能可以用来做这一个工作的方法。或许你找到的方法一共有四种,依序如下。譬如(随便乱举例),「方法一」可能表示:「以面积形心标定 fiducial mark 之中心位置」,「方法二」可能表示「以 Hugh transform标定 fiducial mark 之中心位置」,「方法三」可能表示:「以局部弧形 matching 的方法标定fiducial mark 之中心位置」,「方法四」可能表示:「以 ring code标定fiducial mark 之中心位置」。
      这些方法各有它的特色(优缺点),譬如(随便乱举例),特性1可能表示「计算速度」(因此,根据上表左边第一个 row,可以发现:方法一的计算速度很快,方法二与方法三的计算速度很慢,而方法四的计算速度普通。其次,特性2可能代表「光源亮度不稳定时计算位置的误差大小」,特性3可能代表「噪声对计算出的位置干扰多大」,特性4可能代表「图形边缘有破损时计算的可靠度」,特性5可能代表「对象有彼此的遮蔽时方法的适用性」等等。所以,以上左图中第五个row为例,可以发现:当对象有彼此的遮蔽时,除方法二之外其它三个方法的适用性都很好。
      但是,同样一个方法可能有许多不同的应用场合,而不同应用场合可能会对适用(或最佳)的方法有不同要求。所以,让我们来看右边的「问题特性分析表」。譬如(随便乱举例),应用甲可能是「标定fiducial mark 之中心位置」的方法在「电路插件组装(SMT)」里的应用,应用乙可能是「标定fiducial mark 之中心位置」的方法在「生物检验自动化影像处理」里的应用,而应用丙则可能是「标定 fiducial mark 之中心位置」的方法在「巡乂飞弹目标搜寻」里的应用。这三种应用场合更有其关注的特性。譬如,根据上面右表第二个 row 的资料,三种应用场合对特性2(光源亮度不稳定时计算位置的误差大小)都很在意。再譬如,根据上面右表第四个 row 的资料,三种应用场合中除了应用甲(电路插件组装(SMT))之外,其它两种应用场合对特性4(图形边缘有破损时计算的可靠度)都很在意。
      那么,四个方法中哪个方法最好?你可能会回答说:「方法二!因为它的优点最多,缺点最少。」但是,这样的回答是错的!一个方法只有优缺点,而没有好坏。当它被用在一个适合表现其优点而不在乎其缺点的场合里,它就显得很好;但是,当它被用在一个不适合表现其优点而很在乎其缺点的场合里,它就显得很糟。譬如,方法二在应用场合乙,它的表现会非常出色(因为所有的优点刚好那个应用场合都在意,而所有的缺点刚好那个应用场合都不在意);但是,方法二在应用场合甲里它的表现却会非常糟糕(它所有的缺点刚好那个应用场合都很在意,而它大部分的优点刚好那个应用场合却都不在意)。所以,必须要学会的第一件是就是:方法没有好坏,只有相对优缺点点;只有当方法的特性与应用场合的特性不合时,才能下结论说这方法「不适用」;二当当方法的特性与应用场合的特性吻合时,则下结论说这方法「很适用」。因此,一定要同时有方法特性表与应用场合特性分析表放在一起后,才能判断一个方法的适用性。
      更重要的是:上面的方法与问题分析对照表还可以用来把「突破瓶颈所需的创意」简化成一种「有迹可寻」的工作。譬如,假定我们要针对应用甲发展一套适用的方法,首先我们要先从上右表中标定这个应用场合关心哪些问题特性。根据上右表第一个 column,甲应用场合只关心四个特性:特性1、2、3、5(即「计算速度」、「光源亮度不稳定时计算位置的误差大小」、「噪声对计算出的位置的干扰」、「对象有彼此的遮蔽时方法的适用性」)。那么,哪个方法最适用呢?看起来是方法
      一,它除了特性2表现普通之外,其它三个特性的表现都很出色。但是,假如我们对方法一的表现仍不够满意,怎么去改善它?最简单的办法就是从上左表找现成的方法和方法一结合,产生出一个更适用的方法。因为方法一只有在特性2上面表现不够令人满意,所以我们就优先针对在特性2上面表现出色的其它方法加以研究。根据上左表,在特性2上面表现出色的方法有方法二和方法四,所以我们就去研究这两个方法和方法一结合的可能性。或许(随便举例)方法四的创意刚好可以被结合进方法一而改善方法一在特性2上面的表现,那么,我们就可以因此轻易地获得一个方法一的改良,从而突破甲应用场合没有适用方法的瓶颈。
      有没有可能说单纯常识结合既有方法优点仍无法突破技术瓶颈的状况?可能有。这时候真的需要完全新颖的创意了。但是,这种时候很罕见。多半时候只要应用上一段的分析技巧就可以产生足以解决实用问题的创意了。至少,要产生出一篇学术期刊论文并非那么困难。

    六、论文阅读的补充说明
      硕士生开始学读期刊论文时,就容易犯的毛病就是戒除不掉大学部的习惯:(1)老是想逐行读懂,有一行读不懂就受不了。(2)不敢发挥自己的想象,读论文像在读教科书,论文没写的就不会,瘫痪在那里;被我逼着去自己猜测或想象时,老怕弄错作者的意思,神经绷紧,脑筋根本动不了。
      大学毕业后(不管是念硕、博士或工作),可以参考的资料都没有秩序地交错成一团,而且永远都读不完。用大学生的心态读书,结果一定时间永远不够用。因此,每次读论文都一定要带着问题去读,每次读的时候都只是图回答你要回答的问题。因此,一定是选择性地阅读,一定要逐渐由粗而细地一层一层去了解。上面所规划的读论文的次序,就是由粗而细,每读完一轮,你对这问题的知识就增加一层。根据这一层知识就可以问出下一层更细致的问题,再根据这些更细致的问题去重读,就可以理解到更多的内容。因此,一定是一整批一起读懂到某个层次,而不是逐篇逐篇地整篇一次读懂。
      这样读还有一个好处:第一轮读完后,可以根据第一轮所获得的知识判断出哪些论文与你的议题不相关,不相关的就不需要再读下去了。这样才可以从广泛的论文里逐层准确地筛选出你真正非懂不可的部分。不要读不会用到的东西,白费的力气必须被极小化!其实,绝大部分论文都只需要了解它的主要观念(这往往比较容易),而不需要了解它的详细推导过程(这反而比较费时)。
      其次,一整批一起读还有一个好处:同一派的观念,有的作者说得较易懂,有的说得不清楚。整批读略过一次之后,就可以规划出一个你以为比较容易懂的阅读次序,而不要硬碰硬地在那里撞墙壁。你可以从甲论文帮你弄懂以论文的一个段落,没人说读懂甲论文只能靠甲论文的信息。所以,整批阅读很像在玩跳棋,你要去规划出你自己阅读时的「最省力路径」。
      大学部学生读东西一定要循规蹈矩,你还没修过机械视觉相关课程之前可能也只好循规蹈矩地逐行去念。但是一旦修过机械视觉相关课程,许多论文中没被交代的段落你也已经可以有一些属于你的想象(虽然有可能猜错,尤其刚开始时经常猜错,但没关系,下面详述)。这些想象往往补足论文跳跃处最快速的解决方案。其实,一个大学毕业生所学已经很多了,对许多是都可以有一个不太离谱的想象能力。但是大部分学生却根本不敢去想象。我读论文远比学生快,分析远比学生深入,主要的是我敢想象与猜测,而且多年训练下来想象与猜测的准确度很高。所以,许多论文我根本不是「读懂」的,而是「猜对」了!
      假如猜错了怎么办?不用怕!猜完一后要根据你的猜测在论文里找证据,用以判断你的猜测对不对。猜对了,就用你的猜测(其实是你的推理架构)去吸收作者的资讯与创意(这会比从头硬生生地去迁就作者的思路轻松而容易);猜错了,论文理会有一些信息告诉你说你错了,而且因为猜错所以你读到对的答案时反而印象更深刻。

    七、论文报告的要求与技巧
      报告一篇论文,我要求做到以下部分(依报告次序排列):
      (1) 投影片第一页必须列出论文的题目、作者、论文出处与年份。
      (2) 以下每一页投影片只能讲一个观念,不可以在一张投影片里讲两个观念。
      (3) 说明这篇论文所研究的问题的重点,以及这个问题可能和工业界的哪些应用相关。
      (4) 清楚交代这篇论文的主要假设,主要公式,与主要应用方式(以及应用上可能的解题流程)。
      (5) 说明这篇论文的范例(simulation examples and/or experiments),预测这个方法在不同场合时可能会有的准确度或好用的程度
      (6) 你个人的分析、评价与批评,包括:(6A)这篇论文最主要的创意是什么?(6B)这些创意在应用上有什么好处?(6C)这些创意和应用上的好处是在哪些条件下才能成立?(6D)这篇论文最主要的缺点或局限是什么?(6E)这些缺点或局限在应用上有什么坏处?(6F)这些缺点和应用上的坏处是因为哪些因素而引入的?(6G)你建议学长学弟什么时候参考这篇论文的哪些部分(点子)?
      一般来讲,刚开始报告论文(硕一上学期)时只要做到能把前四项要素说清楚就好了,但是硕一结束后(暑假开始)必须要设法做到六项要素都能触及。硕二下学期开始的时候,必须要做到六项都能说清楚。
      注意:读论文和报告论文时,最重要的是它的创意和观念架构,而不是数学上恒等式推导过程的细节(顶多只要抓出关键的 equation 去弩懂以及说明清楚即可)。你报告观念与分析创意,别人容易听懂又觉得有趣;你讲恒等式,大家不耐烦又浪费时间。
    展开全文
  • 作者:李洲 ... 来源:知乎 ...论文的要求  我对硕士论文的基本要求是:  (1)论文的主要内容,是叙述一套方法在个特定场合中的应用。  (2)这套方法必须要有所创新或突破,并因而对学
  • 一篇论文的典型结构 Introduction 怎么写(先写introduction再写abstract) (1)起手介绍研究任务和意义 (2)随后简介面向这个任务的已有方法 (3)接着说明已有方法面临的关键挑战 (4)针对这些挑战,本文...
  • 一、24小时完成一篇毕业设计论文现实么 首先告诉您,肯定是没有问题的 下面就是西湖大学校长施一公的故事 施一公在美国留学时看到一位教授用了4个多小时写了7页的SCI,施一公本人也曾经用一个晚上完成一篇sci论文的...
  • 这33区块链必读论文, 读过5以上的竟不到1%

    万次阅读 多人点赞 2019-05-27 18:08:49
    2017 年发表的一篇关于 Tezos 的最新论文介绍了其使用应用程序开发语言 OCaml 的设计和实现,以及其旨在促进交易的验证并提供更高的安全性且具有形式化语义( formal semantics )的智能合约开发语言 Michelson 。...
  • 论文评审标准有哪些?

    万次阅读 2018-10-09 17:02:47
    学术论文是知识员工工作成果的个重要组成部分,如何对学术论文进行科学的评价涉及到对知识员工进行绩效考核的公平性和合理性,是知识员工管理的个重要组成部分。国内外对如何评价学术论文已经做了大量的研究。但是...
  • 《人工智能杂记》人工智能时间简史

    万次阅读 多人点赞 2018-03-13 08:54:55
    人工智能(Artificial Intelligence,AI)是指计算机像人一样拥有智能能力,是个融合计算机科学、统计学、脑神经学和社会科学的前沿综合学科,可以代替人类实现识别、认知,分析和决策等多种功能。如当你说句话...
  • SDN

    千次阅读 多人点赞 2017-06-29 11:35:37
    SDN的本质定义就是软件定义网络,也就是说希望应用软件可以参与对...1 SDN标准:ONF 网站:https://www.opennetworking.org/ 参考:http://www.cnblogs.com/qq952693358/p/5835640.html SDN的核心:可编程性 SDN
  • XGBoost

    千次阅读 多人点赞 2019-06-25 00:53:07
    XGBoost是机器学习领域最近几年比较火热的种十分强大的集成学习方法(系统),全称为eXtreme Gradient Boosting,由大牛陈天奇博士开发(陈天奇,交大ACM班毕业,华盛顿大学计算机博士)。 预备知识 Boosting ...
  • 文章目录1 SCI论文是什么?2 杂志和期刊是不是个意思?3 如何知道要投的杂志审稿周期如何?4 文章语言问题和排版格式等要求啊?5 如何选合适的杂志?哪些参数来判断该杂志适合我的文章发表?6 如果我确定好某个...
  •   感谢阅读腾讯AI Lab微信号第34文章。当地时间 7 月 10-15 日,第 35 届国际机器...ICML 2018 所接收的论文的研究主题非常多样,涵盖深度学习模型/架构/理论、强化学习、优化方法、在线学习、生成模型、迁移学...
  • 知网靠论文一年收费10多亿

    千次阅读 2019-04-24 15:17:44
    它是世界上全文信息量规模最大的"CNKI数字图书馆",但对上过大学的人来说,它主要是个查阅论文、查重的地方。“无知网,不论文”,每个人都深有体会。 但这只是关于知网的小部分。 长久以来,知网经营着暴利生意,...
  • 论文的要求   我对硕士论文的基本要求是:   (1)论文的主要内容,是叙述一套方法在个特定场合中的应用。   (2)这套方法必须要有所创新或突破,并因而对学术界有所贡献。因此,它或者是解决既有...
  • 论文写作:研究生必不可少的环——张军平(平猫,复旦大学博导) 张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、...
  • 一篇 在金融领域,上市公司的动量溢出效应得到了广泛的认同。但只有很少的研究预测了一个企业与其相关企业在动量溢出上的传导效应。通常的做法是用一些事先定义的公司间的关系,构建一个图卷机网络模型(GCNs)来...
  • 直到2014年7月9日晚上,突然新浪微博有人提到了我5月份的一篇博文,提到了那次发现的抄袭事件,我才发现:任何旧闻都是新闻,任何新闻都可能是身边事。下面我们就这个事件一步一步展开讨论。2. 抄袭还是造假这个...
  • 文章目录实习总结或体会(通用10)实习总结或体会()实习总结或体会(二)实习总结或体会(三)...作为名一向生活在单纯的大学学校的我,这次的实习无疑成为了我踏入社会前的个平台,为我今后踏入社会奠定了基础
  • 作为深度学习的代表算法之,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉、分类等领域上,都取得了当前最好的效果。 卷积神经网络的前世今生 卷积神经网络的发展,最早可以追溯到1962年,...
  • 作者:Eugenio Culurciello ...这是今年 6 月份普渡大学副教授 Eugenio Culurciello 写的一篇关于无监督学习的概述性文章。除了基本概念,本文还介绍了无监督学习的四种实现模型:聚类学习、自动编码器、生成模型、
  • 每个月都会有几千论文在arXiv发布,我们不可能看完所有的文章,但是我们可以从中找到一些趋势: 大型语言模型不再与较小的模型在同一类别中竞争(如训练前+监督数据微调)。为什么?这已经没有意义了,因为每个人...
  • 这文章总结了过去十年中在深度学习领域具有影响力的论文,从 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年还有很多荣誉提名,包括了众多名声在外的研究成果。 2011 年:激活函数 ReLU 《Deep ...
  • 图像去雾算法学习笔记1 本人现在是国内某211大学博士研究生,刚...他是2006年微软小学者奖学金获得者之,同时也是2003年广东省高考状元。2007年清华大学毕业之后开始在微软亚洲研究院(MSRA)实习,2011年香港...
  • 【这是清华大学出的一篇包含大量数学证明的。 Real-Time Reinforcement Learning(实时强化学习) Convergent Policy Optimization for Safe Reinforcement Learning Intrinsically Efficient, Stable, and ...
  • 读完这100篇论文 就能成大数据高手

    万次阅读 2016-05-06 20:44:20
    http://www.csdn.net/article/2015-07-07/2825148开源(Open ...另方面,开源也给大数据技术构建了个异常复杂的生态系统。每天,都有大堆“新”框架、“新”类库或“新”工具,犹如雨后春笋般涌出,乱花渐
  • sqrt()函数详解

    万次阅读 多人点赞 2014-08-03 14:52:15
    虽然有可能你平时没有想过这个问题,不过正所谓是“临阵磨枪,不快也光”,你“眉头一皱,计上心来”,这个不是太简单了嘛,用二分的方法,在个区间中,每次拿中间数的平方来试验,如果大了,就再试左区间的中间数...
  • 雷锋网 AI 科技评论:今天,就在广大民众都沉浸在双十一血拼之际,AAAI 2020 论文投稿作者从早上大约九点开始就相继收到了论文收录邮件,据悉,今年共收到的有效论文投稿超过 8800 ,其中 7737 篇论文进入评审环节...
  • 计算机图形学导论

    千次阅读 多人点赞 2018-10-12 22:42:46
    .计算机图形学概念 1.1什么是计算机图形学?(Computer Graphics) 关于计算机图形学的定义众说纷纭。 IEEE 对计算机图形学的定义为:Computer graphicsis the art or science of producing graphical images ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 28,896
精华内容 11,558
关键字:

一篇标准大学论文