历史 深度学习_深度学习历史 - CSDN
  • 学习任一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来 ———by BryantLJ¶学习深度学习也需要了解深度学习的经历过程,能够更好的帮助我们理解深度学习的变更和趋势。深度学习经过3次浪潮,起...

    学习任一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来 ———by BryantLJ
    学习深度学习也需要了解深度学习的经历过程,能够更好的帮助我们理解深度学习的变更和趋势。

    深度学习经过3次浪潮,起起伏伏,目前处于第三次浪潮中,也是风口上的猪。其历史时间轴偷图如下:
                    
    那么是什么原因让深度学习起起落落呢?
    我们将通过几个关键节点给出答案,同时认识深度学习的变更和历史趋势。

    第一次兴起--神经网络启蒙

    1943年由神经科学家麦卡洛克(W.S.McCilloch) 和数学家皮兹(W.Pitts)在《数学生物物理学公告》上发表论文《神经活动中内在思想的逻辑演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)。建立了神经网络和数学模型,称为MCP模型。所谓MCP模型,其实是按照生物神经元的结构和工作原理构造出来的一个抽象和简化了的模型,也就诞生了所谓的“模拟大脑”,人工神经网络的大门由此开启。MCP当时是希望能够用计算机来模拟人的神经元反应的过程,该模型将神经元简化为了三个过程:输入信号线性加权,求和,非线性激活(阈值法)。如下图所示
    该模型建立了深度学习的基本思想,在后面的课程中我们将不断遇到。

    1958年计算机科学家罗森布拉特( Rosenblatt)提出了两层神经元组成的神经网络,称之为“感知器”(Perceptrons)。第一次将MCP用于机器学习(machine learning)分类(classification)。“感知器”算法算法使用MCP模型对输入的多维数据进行二分类,且能够使用梯度下降法从训练样本中自动学习更新权值。1962年,该方法被证明为能够收敛,理论与实践效果引起第一次神经网络的浪潮。

    第一次低谷---成也萧何败也萧何

    1969年,美国数学家及人工智能先驱 Marvin Minsky 在其著作中证明了感知器本质上是一种线性模型(linear model),只能处理线性分类问题,就连最简单的XOR(亦或)问题都无法正确分类。这等于直接宣判了感知器的死刑,神经网络的研究也陷入了将近20年的停滞。
    第二次兴起--BP网络与激活函数

    1986年由神经网络之父 Geoffrey Hinton 在1986年发明了适用于多层感知器(MLP)的BP(Backpropagation)算法,并采用Sigmoid进行非线性映射,有效解决了非线性分类和学习的问题。该方法引起了神经网络的第二次热潮。注:Sigmoid 函数是一个在生物学中常见的S型的函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。

    S(x)=1(1+ex)S(x)=1(1+e−x)声量

    第二次低谷--屋漏偏逢连夜雨

    1991年BP算法被指出存在梯度消失问题,也就是说在误差梯度后项传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0,因此无法对前层进行有效的学习,该问题直接阻碍了深度学习的进一步发展。
    此外90年代中期,支持向量机算法诞生(SVM算法)等各种浅层机器学习模型被提出,SVM也是一种有监督的学习模型,应用于模式识别,分类以及回归分析等。支持向量机以统计学为基础,和神经网络有明显的差异,支持向量机等算法的提出再次阻碍了深度学习的发展。
    第三次兴起--待到秋来九月八,我花开后百花杀。冲天香阵透长安,满城尽带黄金甲。
    发展期 2006年 - 2012年
    2006年,加拿大多伦多大学教授、机器学习领域泰斗、神经网络之父—— Geoffrey Hinton 和他的学生 Ruslan Salakhutdinov 在顶尖学术刊物《科学》上发表了一篇文章,该文章提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化+有监督训练微调。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇,至此开启了深度学习在学术界和工业界的浪潮。
    2011年,ReLU激活函数被提出,该激活函数能够有效的抑制梯度消失问题。2011年以来,微软首次将DL应用在语音识别上,取得了重大突破。微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。
    在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩。
    爆发期 2012 - 2017
    2012年,Hinton课题组为了证明深度学习的潜力,首次参加ImageNet图像识别比赛,其通过构建的CNN网络AlexNet一举夺得冠军,且碾压第二名(SVM方法)的分类性能。也正是由于该比赛,CNN吸引到了众多研究者的注意。

    三步曲简单介绍至此,你可能有了一些认识但是还是不禁问一声深度学习到底是什么鬼?有什么用?
    这里先用一些概念来说明(虽然很烦概念但是还要提一提),再借用一个别人有趣的例子来说明。
    《Deep Learning》(深度学习)一书中说,深度学习是机器学习的一种,一种能够使计算机系统从经验和数据中得到提高的技术。具有强大的能力和灵活性,它将大千世界表示为嵌套的层次概念体系(由较简单概念间的联系定义复杂概念、从一般抽象概括到高级抽象表示)。(PS:学习深度学习的小伙伴如果没有学过机器学习记得回头恶补哦)
    用下图来说明深度学习与机器学习及人工智能的关系。
    从图中可以看出,人工智能是一个大方向,而机器学习是实现人工智能的一种方法,深度学习则是机器学习的一个分支。

    所以,深度学习就是目前实现人工智能的一条路,只是目前这条路表现最好所以被大家热捧。

    这里简单从百科上搬几个概念,能够帮助我们理解深度学习的用处。

    人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
        它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
        个人更喜欢的说法是:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
    深度学习(Deep Learning,DL)是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
            深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
            同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。
    估计按照上面的说法可能你还不能够生动形象的明白深度学习是个什么样子,当然如果你已经学习过了不说

    我找了网上一个很有意思的例子(PS:摘自到底什么是深度学习?-猎奇古今),感觉可以让你生动形象明白深度学习是什么?在干啥?

    比如你需要挑选芒果,你并不知道什么样的芒果最好吃,所以你就尝遍了所有的芒果,然后自己总结出个大深黄色的比较好吃,以后再去买的时候,就可以直接挑选这种。

    那什么是机器学习呢,就是你让机器“尝”一遍所有芒果,当然,也假设它知道哪些好吃,让机器去总结一套规律(个大深黄色),这就是机器学习。

    具体操作,就是你描述给机器每一个芒果的特征(颜色,大小,软硬……),描述给机器其输出(味道如何,是否好吃),剩下的就等机器去学习出一套规则。

    那机器是怎么学习到这个规则(个大深黄色的好吃)的呢?

    没错,是通过机器学习算法。而神经网络,恰好就是一种机器学习算法。

    近些年来,由于深度学习概念的兴起,神经网络又成为了机器学习领域最热门的研究方法。

    神经网络就像是一个刚开始学习认东西的小孩子,而大人是作为一个监督者,来告诉他所看到的东西是什么,至于如果判定这是狗还是猫,还是其他的动物的方法,则由小孩自行去学习。

    第一天,他看见一只京巴狗,你告诉他这是狗;

    第二天,他看见一只波斯猫,他开心地说,这是狗,但你纠正他,这是猫;

    第三天,他看见一只蝴蝶犬,他又迷惑了,你告诉他这是狗;

    直到有一天,他可以分清任何一只猫或者狗。

    本人应该从历史中的一点收获:
    1. 人工神经网络,这是打开深度学习大门的基石
    2. 有一种算法叫BP算法,很牛逼的样子
    3. 原来还有一种问题叫梯度消失,是否已经解决了,我们遇到了该怎么办呢?据说还有一种叫梯度爆炸,会不会有生命危险啊
    4. 激活函数是个好东西,线性不再是局限,看来要了解下激活函数

    最后列一下深度学习技术,听说学完了就可以打通任督二脉,成为深度学习高手。
    线性代数、概率和信息论
    欠拟合、过拟合、正则化
    最大似然估计和贝叶斯统计
    随机梯度下降
    监督学习和无监督学习
    深度前馈网络、代价函数和反向传播
    正则化、稀疏编码和dropout
    自适应学习算法
    卷积神经网络
    循环神经网络
    递归神经网络
    深度神经网络和深度堆叠网络
    LSTM长短时记忆
    主成分分析
    正则自动编码器
    表征学习
    蒙特卡洛
    受限波兹曼机
    深度置信网络
    softmax回归、决策树和聚类算法
    KNN和SVM
    生成对抗网络和有向生成网络
    机器视觉和图像识别
    自然语言处理
    语音识别和机器翻译
    有限马尔科夫
    动态规划
    梯度策略算法
    增强学习(Q-learning)
    展开全文
  • 本次深度学习系列主要从以下几个方面记录,主要为CNN相关 另外最后会专留一章讲述CNN与计算机视觉中的目标检测的发展。∙\bullet发展历史 ∙\bullet基础结构 ∙\bullet损失函数 ∙\bullet优化方法 ∙\bullet...

    本次深度学习系列主要从以下几个方面记录,主要为CNN相关
    另外最后会专留一章讲述CNN与计算机视觉中的目标检测的发展。

    发展历史
    基础结构
    损失函数
    优化方法
    训练trick

    学习任一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来
    ———by BryantLJ

    首先盗一张图(来自于“深度学习大讲堂”微信公众号~),该图形象的展示DL今年来的发展历程及关键节点:

    DL发展历史

    由图可以明显看出DL在从06年崛起之前经历了两个低谷,这两个低谷也将神经网络的发展分为了三个不同的阶段,下面就分别讲述这三个阶段

    第一代神经网络(1958~1969)

    最早的神经网络的思想起源于1943年的MCP人工神经元模型,当时是希望能够用计算机来模拟人的神经元反应的过程,该模型将神经元简化为了三个过程:输入信号线性加权,求和,非线性激活(阈值法)。如下图所示

    MCP神经元模型

    第一次将MCP用于机器学习(分类)的当属1958年Rosenblatt发明的感知器(perceptron)算法。该算法使用MCP模型对输入的多维数据进行二分类,且能够使用梯度下降法从训练样本中自动学习更新权值。1962年,该方法被证明为能够收敛,理论与实践效果引起第一次神经网络的浪潮。

    然而学科发展的历史不总是一帆风顺的。

    1969年,美国数学家及人工智能先驱Minsky在其著作中证明了感知器本质上是一种线性模型,只能处理线性分类问题,就连最简单的XOR(亦或)问题都无法正确分类。这等于直接宣判了感知器的死刑,神经网络的研究也陷入了近20年的停滞。

    第二代神经网络(1986~1998)

    第一次打破非线性诅咒的当属现代DL大牛Hinton,其在1986年发明了适用于多层感知器(MLP)的BP算法,并采用Sigmoid进行非线性映射有效解决了非线性分类和学习的问题。该方法引起了神经网络的第二次热潮。

    1989年,Robert Hecht-Nielsen证明了MLP的万能逼近定理,即对于任何闭区间内的一个连续函数f,都可以用含有一个隐含层的BP网络来逼近该定理的发现极大的鼓舞了神经网络的研究人员。

    也是在1989年,LeCun发明了卷积神经网络-LeNet,并将其用于数字识别,且取得了较好的成绩,不过当时并没有引起足够的注意。

    值得强调的是在1989年以后由于没有特别突出的方法被提出,且NN一直缺少相应的严格的数学理论支持,神经网络的热潮渐渐冷淡下去。冰点来自于1991年,BP算法被指出存在梯度消失问题,即在误差梯度后向传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0,因此无法对前层进行有效的学习,该发现对此时的NN发展雪上加霜。

    1997年,LSTM模型被发明,尽管该模型在序列建模上的特性非常突出,但由于正处于NN的下坡期,也没有引起足够的重视。

    统计学习方法的春天(1986~2006)

    1986年,决策树方法被提出,很快ID3,ID4,CART等改进的决策树方法相继出现,到目前仍然是非常常用的一种机器学习方法。该方法也是符号学习方法的代表。
    1995年,线性SVM被统计学家Vapnik提出。该方法的特点有两个:由非常完美的数学理论推导而来(统计学与凸优化等),符合人的直观感受(最大间隔)。不过,最重要的还是该方法在线性分类的问题上取得了当时最好的成绩。
    1997年,AdaBoost被提出,该方法是PAC(Probably Approximately Correct)理论在机器学习实践上的代表,也催生了集成方法这一类。该方法通过一系列的弱分类器集成,达到强分类器的效果。
    2000年,KernelSVM被提出,核化的SVM通过一种巧妙的方式将原空间线性不可分的问题,通过Kernel映射成高维空间的线性可分问题,成功解决了非线性分类的问题,且分类效果非常好。至此也更加终结了NN时代。
    2001年,随机森林被提出,这是集成方法的另一代表,该方法的理论扎实,比AdaBoost更好的抑制过拟合问题,实际效果也非常不错。
    2001年,一种新的统一框架-图模型被提出,该方法试图统一机器学习混乱的方法,如朴素贝叶斯,SVM,隐马尔可夫模型等,为各种学习方法提供一个统一的描述框架。

    第三代神经网络-DL(2006-至今)

    该阶段又分为两个时期:快速发展期(2006~2012)与爆发期(2012~至今)

    快速发展期(2006~2012)

    2006年,DL元年。是年,Hinton提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化+有监督训练微调。其主要思想是先通过自学习的方法学习到训练数据的结构(自动编码器),然后在该结构上进行有监督训练微调。但是由于没有特别有效的实验验证,该论文并没有引起重视。

    2011年,ReLU激活函数被提出,该激活函数能够有效的抑制梯度消失问题。

    2011年,微软首次将DL应用在语音识别上,取得了重大突破。

    爆发期(2012~至今)

    2012年,Hinton课题组为了证明深度学习的潜力,首次参加ImageNet图像识别比赛,其通过构建的CNN网络AlexNet一举夺得冠军,且碾压第二名(SVM方法)的分类性能。也正是由于该比赛,CNN吸引到了众多研究者的注意。
    AlexNet的创新点:
    (1)首次采用ReLU激活函数,极大增大收敛速度且从根本上解决了梯度消失问题;(2)由于ReLU方法可以很好抑制梯度消失问题,AlexNet抛弃了“预训练+微调”的方法,完全采用有监督训练。也正因为如此,DL的主流学习方法也因此变为了纯粹的有监督学习;(3)扩展了LeNet5结构,添加Dropout层减小过拟合,LRN层增强泛化能力/减小过拟合;(4)首次采用GPU对计算进行加速;

    2013,2014,2015年,通过ImageNet图像识别比赛,DL的网络结构,训练方法,GPU硬件的不断进步,促使其在其他领域也在不断的征服战场

    2015年,Hinton,LeCun,Bengio论证了局部极值问题对于DL的影响,结果是Loss的局部极值问题对于深层网络来说影响可以忽略。该论断也消除了笼罩在神经网络上的局部极值问题的阴霾。具体原因是深层网络虽然局部极值非常多,但是通过DL的BatchGradientDescent优化方法很难陷进去,而且就算陷进去,其局部极小值点与全局极小值点也是非常接近,但是浅层网络却不然,其拥有较少的局部极小值点,但是却很容易陷进去,且这些局部极小值点与全局极小值点相差较大。论述原文其实没有证明,只是简单叙述,严密论证是猜的。。。

    2015,DeepResidualNet发明。分层预训练,ReLU和BatchNormalization都是为了解决深度神经网络优化时的梯度消失或者爆炸问题。但是在对更深层的神经网络进行优化时,又出现了新的Degradation问题,即”通常来说,如果在VGG16后面加上若干个单位映射,网络的输出特性将和VGG16一样,这说明更深次的网络其潜在的分类性能只可能>=VGG16的性能,不可能变坏,然而实际效果却是只是简单的加深VGG16的话,分类性能会下降(不考虑模型过拟合问题)“Residual网络认为这说明DL网络在学习单位映射方面有困难,因此设计了一个对于单位映射(或接近单位映射)有较强学习能力的DL网络,极大的增强了DL网络的表达能力。此方法能够轻松的训练高达150层的网络。

    总结

    从原理上解释为什么CNN要比传统的目标检测方法好?
    (1)传统方法都是通过人工提取特征,需要在领域专家通过多年的积累和经验才能手工设计出来,DL方法是通过大量的数据,自动学习到能够反应数据差别的特征,更具有代表性
    (2)对于视觉识别来说,CNN分层提取的特征与人的视觉机理(神经科学)类似,都是进行边缘->部分->全体的过程。

    以上。

    展开全文
  • 图像识别中的深度学习

    万次阅读 2016-05-11 15:46:33
    深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络...

    图像识别中的深度学习


    来源:《中国计算机学会通讯》第8期《专题》

    作者:王晓刚

    深度学习发展历史

    深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络的起源可追溯到20世纪40年代,曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理解决各种机器学习问题。1986年,鲁梅尔哈特(Rumelhart)、欣顿(Hinton)和威廉姆斯(Williams)在《自然》杂志发表了著名的反向传播算法用于训练神经网络[1],该算法直到今天仍被广泛应用。

    神经网络有大量参数,经常发生过拟合问题,虽然其识别结果在训练集上准确率很高,但在测试集上效果却很差。这是因为当时的训练数据集规模都较小,加之计算资源有限,即便是训练一个较小的网络也需要很长的时间。与其他模型相比,神经网络并未在识别准确率上体现出明显的优势。

    因此更多的学者开始采用支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因此被称为浅层机器学习模型。在这种模型中,往往是针对不同的任务设计不同的系统,并采用不同的手工设计的特征。例物体识别采用尺度不变特征转换(Scale Invariant Feature Transform, SIFT),人脸识别采用局部二值模式(Local Binary Patterns, LBP),行人检测采用方向梯度直方图(Histogram of Oriented Gradient, HOG)特征。

    2006年,欣顿提出了深度学习。之后深度学习在诸多领域取得了巨大成功,受到广泛关注。神经网络能够重新焕发青春的原因有几个方面:首先,大规模训练数据的出现在很大程度上缓解了训练过拟合的问题。例如,ImageNet[2]训练集拥有上百万个有标注的图像。其次,计算机硬件的飞速发展为其提供了强大的计算能力,一个GPU芯片可以集成上千个核。这使得训练大规模神经网络成为可能。第三,神经网络的模型设计和训练方法都取得了长足的进步。例如,为了改进神经网络的训练,学者提出了非监督和逐层的预训练,使得在利用反向传播算法对网络进行全局优化之前,网络参数能达到一个好的起始点,从而在训练完成时能达到一个较好的局部极小点。

    深度学习在计算机视觉领域最具影响力的突破发生在2012年,欣顿的研究小组采用深度学习赢得了ImageNet图像分类比赛的冠军[3]。排名第2到第4位的小组采用的都是传统的计算机视觉方法、手工设计的特征,他们之间准确率的差别不超过1%。欣顿研究小组的准确率超出第二名10%以上,(见表1)。这个结果在计算机视觉领域产生了极大的震动,引发了深度学习的热潮。

    计算机视觉领域另一个重要的挑战是人脸识别。有研究表明[5],如果只把不包括头发在内的人脸的中心区域给人看,人眼在户外脸部检测数据库(Labeled Faces in the Wild, LFW)上的识别率是97.53%。如果把整张图像,包括背景和头发给人看,人眼的识别率是99.15%。经典的人脸识别算法Eigenface [6] 在LFW测试集上只有60%的识别率。在非深度学习算法中,最高的识别率是96.33% [7]。目前深度学习可以达到99.47%的识别率[8]

    在欣顿的科研小组赢得ImageNet比赛冠军之后的6个月,谷歌和百度都发布了新的基于图像内容的搜索引擎。他们采用深度学习模型,应用在各自的数据上,发现图像搜索准确率得到了大幅度提高。百度在2012年成立了深度学习研究院,2014年5月又在美国硅谷成立了新的深度学习实验室,聘请斯坦福大学著名教授吴恩达担任首席科学家。脸谱于2013年12月在纽约成立了新的人工智能实验室,聘请深度学习领域的著名学者、卷积网络的发明人雅恩·乐昆(Yann LeCun)作为首席科学家。2014年1月,谷歌抛出四亿美金收购了深度学习的创业公司DeepMind。鉴于深度学习在学术界和工业界的巨大影响力,2013年,《麻省理工科技评论》(MIT Technology Review)将其列为世界十大技术突破之首。

    深度学习有何与众不同?

    深度学习和其他机器学习方法相比有哪些关键的不同点,它为何能在许多领域取得成功?

    特征学习

    深度学习与传统模式识别方法的最大不同在于它所采用的特征是从大数据中自动学习得到,而非采用手工设计。好的特征可以提高模式识别系统的性能。过去几十年,在模式识别的各种应用中,手工设计的特征一直处于统治地位。手工设计主要依靠设计者的先验知识,很难利用大数据的优势。由于依赖手工调参数,因此特征的设计中所允许出现的参数数量十分有限。深度学习可以从大数据中自动学习特征的表示,可以包含成千上万的参数。

    采用手工设计出有效的特征往往需要五到十年时间,而深度学习可以针对新的应用从训练数据中很快学习到新的有效的特征表示。

    一个模式识别系统包括特征和分类器两部分。在传统方法中,特征和分类器的优化是分开的。而在神经网络的框架下,特征表示和分类器是联合优化的,可以最大程度地发挥二者联合协作的性能。

    2012年欣顿参加ImageNet比赛所采用的卷积网络模型[9]的特征表示包含了从上百万样本中学习得到的6000万个参数。从ImageNet上学习得到的特征表示具有非常强的泛化能力,可以成功应用到其他数据集和任务中,例如物体的检测、跟踪和检索等。在计算机视觉领域另外一个著名的竞赛是PSACAL VOC。但是它的训练集规模较小,不适合训练深度学习模型。有学者将ImageNet上学习得到的特征表示用于PSACAL VOC上的物体检测,检测率提高了20%[10]。

    既然特征学习如此重要,那么,什么是好的特征呢?一幅图像中,各种复杂的因素往往以非线性的方式结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情、光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功分开,例如在深度模型的最后一个隐含层,不同神经元代表了不同因素。如果将这个隐含层当作特征表示,人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单,因为各个因素之间变成了简单的线性关系,不再彼此干扰。

    深层结构的优势

    深度学习模型的“深”字意味着神经网络的结构深,由很多层组成。而支持向量机和Boosting等其他常用的机器学习模型都是浅层结构。三层神经网络模型(包括输入层、输出层和一个隐含层)可以近似任何分类函数。既然如此,为什么需要深层模型呢?

    研究表明,针对特定的任务,如果模型的深度不够,其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数,但其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干个局部区域,每个局部区域至少存储一个从训练数据中获得的模板,如图1(a)所示。浅层模型将一个测试样本和这些模板逐一匹配,根据匹配的结果预测其类别。例如,在支持向量机模型中,模板是支持向量;在最近邻分类器中,模板是所有的训练样本。随着分类问题复杂度的增加,需要将图像空间划分成越来越多的局部区域,因而需要越来越多的参数和训练样本。尽管目前许多深度模型的参数量已经相当巨大,但如果换成浅层神经网络,其所需要的参数量要大出多个数量级才能达到相同的数据拟合效果,以至于很难实现。

    深度模型之所以能减少参数的关键在于重复利用中间层的计算单元。以人脸识别为例,深度学习可以针对人脸图像的分层特征表达进行:最底层从原始像素开始学习滤波器,刻画局部的边缘和纹理特征;中层滤波器通过将各种边缘滤波器进行组合,描述不同类型的人脸器官;最高层描述的是整个人脸的全局特征。

    深度学习提供的是分布式的特征表示。在最高的隐含层,每个神经元代表一个属性分类器(如图1(b)所示),例如性别、人种和头发颜色等。每个神经元将图像空间一分为二,N个神经元的组合就可以表达2N个局部区域,而用浅层模型表达这些区域的划分至少需要2N个模板。由此可以看出,深度模型的表达能力更强,效率更高。

    提取全局特征和上下文信息的能力

    深度模型具有强大的学习能力和高效的特征表达能力,更重要的优点是从像素级原始数据到抽象的语义概念逐层提取信息,这使得它在提取图像的全局特征和上下文信息方面具有突出的优势,为解决传统的计算机视觉问题(如图像分割和关键点检测)带来了新的思路。

    以人脸的图像分割为例(如图2所示),为了预测每个像素属于哪个脸部器官(眼睛、鼻子、嘴),通常的做法是在该像素周围取一个小区域,提取纹理特征(例如局部二值模式),再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含的信息量有限,往往产生分类错误,因此要对分割后的图像加入平滑和形状先验等约束。

    人眼即使在存在局部遮挡的情况下也可以根据脸部其他区域的信息估计被遮挡部分的标注。由此可知全局和上下文信息对于局部的判断是非常重要的,而这些信息在基于局部特征的方法中在最开始阶段就丢失了。理想情况下,模型应该将整幅图像作为输入,直接预测整幅分割图。图像分割可以被看做一个高维数据转换的问题来解决。这样不但利用到了上下文信息,模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂,浅层模型很难有效地捕捉全局特征。而深度学习的出现使这一思路成为可能,在人脸分割[11]、人体分割[12]、人脸图像配准[13]和人体姿态估计等各个方面都取得了成功[14]。

    联合深度学习

    一些研究计算机视觉的学者将深度学习模型视为黑盒子,这种看法是不全面的。传统计算机视觉系统和深度学习模型存在着密切的联系,利用这种联系可以提出新的深度模型和训练方法。用于行人检测的联合深度学习[15]就是一个成功的例子。一个计算机视觉系统包含若干个关键的组成模块。例如,一个行人检测器包括特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等模块。在联合深度学习中[15],深度模型的各个层和视觉系统的各个模块可以建立对应关系。如果视觉系统中的关键模块在现有深度学习的模型中没有与之对应的层,则它们可以启发我们提出新的深度模型。例如,大量物体检测的研究工作表明,对物体部件的几何形变建模可以有效提高检测率,但是在常用的深度模型中没有与之相对应的层,因此联合深度学习[15]及其后续的工作[16]都提出了新的形变层和形变池化层1来实现这一功能。

    从训练方式上看,计算机视觉系统的各个模块是逐一训练或手工设计的。在深度模型的预训练阶段2,各个层也是逐一训练的。如果我们能够建立计算机视觉系统和深度模型之间的对应关系,那么在视觉研究中积累的经验就可以对深度模型的预训练提供指导。这样预训练后得到的模型就可以达到与传统计算机视觉系统可比的结果。在此基础上,深度学习还会利用反向传播对所有层进行联合优化,使它们之间的相互协作达到最优,从而使整个网络的性能得到重大提升。

    深度学习在物体识别中的应用

    ImageNet图像分类

    深度学习在物体识别中最重要的进展体现在ImageNet ILSVRC3挑战中的图像分类任务。传统计算机视觉方法在此测试集上最低的错误率是26.172%。2012年,欣顿的研究小组利用卷积网络把错误率降到了15.315%。此网络结构被称为Alex Net[3],与传统的卷积网络相比,它有三点与众不同之处:首先,Alex Net采用了dropout的训练策略,在训练过程中将输入层和中间层的一些神经元随机置零。这模拟了噪音对输入数据的各种干扰使一些神经元对一些视觉模式产生漏检的情况。Dropout使训练过程收敛得更慢,但得到的网络模型更加鲁棒。其次,Alex Net采用整流线型单元作为非线性的激发函数。这不仅大大降低了计算的复杂度,而且使神经元的输出具有稀疏的特征,对各种干扰更加鲁棒。第三,Alex Net通过对训练样本镜像映射和加入随机平移扰动,产生了更多的训练样本,减少了过拟合。

    在ImageNet ILSVRC 2013比赛中,排名前20的小组使用的都是深度学习技术。获胜者是纽约大学罗伯·费格斯(Rob Fergus)的研究小组,所采用的深度模型是卷积网络,并对网络结构作了进一步优化,错误率为11.197%,其模型称作Clarifai[17]。

    在ILSVRC 2014比赛中,获胜者GooLeNet[18]将错误率降到了6.656%。GooLeNet突出的特点是大大增加了卷积网络的深度,超过了20层,这在此之前是不可想象的。很深的网络结构给预测误差的反向传播带了困难,这是因为预测误差是从最顶层传到底层的,传到底层的误差很小,难以驱动底层参数的更新。GooLeNet采取的策略是将监督信号直接加到多个中间层,这意味着中间层和底层的特征表示也要能够对训练数据进行准确分类。如何有效地训练很深的网络模型仍是未来研究的一个重要课题。

    虽然深度学习在ImageNet上取得了巨大成功,但是很多应用的训练集是较小的,在这种情况下,如何应用深度学习呢?有三种方法可供参考:(1)可以将ImageNet上训练得到的模型作为起点,利用目标训练集和反向传播对其进行继续训练,将模型适应到特定的应用[10]。此时ImageNet起到预训练的作用。(2)如果目标训练集不够大 ,可以将底层的网络参数固定,沿用ImageNet上的训练集结果,只对上层进行更新。这是因为底层的网络参数是最难更新的,而从ImageNet学习得到的底层滤波器往往描述了各种不同的局部边缘和纹理信息,而这些滤波器对一般的图像有较好的普适性。(3)直接采用ImageNet上训练得到的模型,把最高的隐含层的输出作为特征表达,代替常用的手工设计的特征[19, 20]。

    人脸识别

    深度学习在物体识别上的另一个重要突破是人脸识别。人脸识别的最大挑战是如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。这两种变化的分布是非线性的,且极为复杂,传统的线性模型无法将它们有效区分开。深度学习的目的是通过多层的非线性变换得到新的特征表示。这些新特征须尽可能多地去掉类内变化,而保留类间变化。

    人脸识别包括人脸确认和人脸辨识两种任务。人脸确认是判断两张人脸照片是否属于同一个人,属于二分类问题,随机猜的正确率是50%。人脸辨识是将一张人脸图像分为N个类别之一,类别是由人脸的身份定义的。这是个多分类问题,更具挑战性,其难度随着类别数的增多而增大,随机猜的正确率是1/N。两种任务都可以通过深度模型学习人脸的特征表达。

    2013年,文献[21]采用人脸确认任务作为监督信号,利用卷积网络学习人脸特征,在LFW上取得了92.52%的识别率。这一结果虽然与后续的深度学习方法相比较低,但也超过了大多数非深度学习算法。由于人脸确认是一个二分类问题,用它学习人脸特征的效率比较低,容易在训练集上发生过拟合。而人脸辨识是一个更具挑战性的多分类问题,不容易发生过拟合,更适合通过深度模型学习人脸特征。另一方面,在人脸确认中,每一对训练样本被人工标注成两类中的一类,所含信息量较少。而在人脸辨识中,每个训练样本都被人工标注成N类之一,信息量大。

    在2014年的IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上,DeepID[22]和DeepFace[23] 都采用人脸辨识作为监督信号,在LFW上分别取得了97.45%和97.35%的识别率(见表2)。他们利用卷积网络预测N维标注向量,将最高的隐含层作为人脸特征。这一层在训练过程中要区分大量的人脸类别(例如在DeepID中区分1000个类别的人脸),因此包含了丰富的类间变化的信息,有很强的泛化能力。虽然训练中采用的是人脸辨识任务,但得到的特征可以应用到人脸确认任务中,以及识别训练集中是否有新人。例如,LFW上用于测试的任务是人脸确认任务,不同于训练中的人脸辨识任务;DeepID[21]和DeepFace[22]的训练集与LFW测试集的人物身份是不重合的。

    通过人脸辨识任务学习得到的人脸特征包含较多的类内变化。DeepID2[24]联合使用人脸确认和人脸辨识作为监督信号,得到的人脸特征在保持类间变化的同时使类内变化最小化,从而将LFW上的人脸识别率提高到99.15%。DeepID2利用Titan GPU提取一幅人脸图像的特征只需要35毫秒,而且可以离线进行。经过主元分析(Principal Component Analysis, PCA)压缩最终得到80维的特征向量,可以用于快速人脸在线比对。在后续工作中,DeepID2[8]通过扩展网络结构,增加训练数据,以及在每一层都加入监督信息,在LFW达到了99.47%的识别率。

    一些人认为深度学习的成功是由于用具有大量参数的复杂模型去拟合数据集,其实远非如此简单。例如DeepID2+的成功还在于其所具有的很多重要有趣的特征[8]:它最上层的神经元响应是中度稀疏的,对人脸身份和各种人脸属性具有很强的选择性,对局部遮挡有很强的鲁棒性。在以往的研究中,为了得到这些属性,我们往往需要对模型加入各种显示的约束。而DeepID2+通过大规模学习自动拥有了这些属性,其背后的理论分析值得未来进一步研究。

    深度学习在物体检测中的应用

    物体检测是比物体识别更难的任务。一幅图像中可能包含属于不同类别的多个物体,物体检测需要确定每个物体的位置和类别。2013年,ImageNet ILSVRC比赛的组织者增加了物体检测的任务,要求在4万张互联网图片中检测200类物体。比赛获胜者使用的是手动设计的特征,平均物体检测率(mean Averaged Precision, mAP)只有22.581%。在ILSVRC 2014中,深度学习将平均物体检测率提高到了43.933%。较有影响力的工作包括 RCNN[10]、Overfeat[25]、GoogLeNet[18]、DeepID-Net[16]、network in network[26]、VGG[27]和spatial pyramid pooling in deep CNN[28]。RCNN[10]首次提出了被广泛采用的基于深度学习的物体检测流程,并首先采用非深度学习方法(例如selective search[29])提出候选区域,利用深度卷积网络从候选区域提取特征,然后利用支持向量机等线性分类器基于特征将区域分为物体和背景。DeepID-Net[16]进一步完善了这一流程,使得检测率有了大幅提升,并且对每一个环节的贡献做了详细的实验分析。深度卷积网络结构的设计也至关重要,如果一个网络结构能够提高图像分类任务的准确性,通常也能显著提升物体检测器的性能。

    深度学习的成功还体现在行人检测上。在最大的行人检测测试集(Caltech[30])上,广泛采用的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征和可变形部件模型[31]的平均误检率是68%。目前基于深度学习检测的最好结果是20.86%[32]。在最新的研究进展中,很多被证明行之有效的物体检测都用到了深度学习。例如,联合深度学习[15]提出了形变层,对物体部件间的几何形变进行建模;多阶段深度学习[33]可以模拟物体检测中常用的级联分类器;可切换深度网络[34]可以表达物体各个部件的混合模型;文献[35]通过迁移学习将一个深度模型行人检测器自适应到一个目标场景。

    深度学习用于视频分析

    深度学习在视频分类上的应用还处于起步阶段,未来还有很多工作要做。描述视频的静态图像特征可以采用从ImageNet上学习得到的深度模型,难点是如何描述动态特征。以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像,直接应用卷积网络[36]在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是,通过预处理计算光流场或其他动态特征的空间场分布,作为卷积网络的一个输入通道[37~39]。也有研究工作利用深度编码器(deep autoencoder)以非线性的方式提取动态纹理[38]。在最新的研究工作中[41],长短时记忆网络(Long Short-Term Memory, LSTM)受到广泛关注,它可以捕捉长期依赖性,对视频中复杂的动态建模。

    未来发展的展望

    深度学习在图像识别中的应用方兴未艾,未来有着巨大的发展空间。

    在物体识别和物体检测研究的一个趋势是使用更大更深的网络结构。在ILSVRC 2012中,Alex Net只包含了5个卷积层和两个全连接层。而在ILSVRC2014中, GooLeNet和 VGG 使用的网络结构都超过了20层。更深的网络结构使得反向传播更加困难。与此同时,训练数据的规模也在迅速变大。这迫切需要研究新的算法和开发新的并行计算系统来更加有效地利用大数据训练更大更深的模型。

    与图像识别相比,深度学习在视频分类中的应用还远未成熟。从ImageNet 训练得到的图像特征可以直接有效地应用到各种与图像相关的识别任务(例如图像分类、图像检索、物体检测和图像分割等)和其他不同的图像测试集中,具有良好的泛化性能。但是深度学习至今还没有得到类似的可用于视频分析的特征。要达到这个目的,不但要建立大规模的训练数据集(文献[42]最新建立了包含100万个YouTube视频的数据库),还需要研究适用于视频分析的新的深度模型。训练用于视频分析的深度模型的计算量也会大大增加。

    在与图像和视频相关的应用中,深度模型的输出预测(例如分割图或物体检测框)往往具有空间和时间上的相关性。因此研究具有结构性输出的深度模型也是一个重点。

    虽然神经网络的目的在于解决一般意义上的机器学习问题,但领域知识对深度模型的设计也起着重要的作用。在与图像和视频相关的应用中,最成功的是深度卷积网络,其设计正是利用了图像的特殊结构。其中最重要的两个操作——卷积和池化都来自与图像相关的领域知识。如何通过研究领域知识,在深度模型中引入新的有效的操作和层,对于提高图像和视频识别的性能有着重要意义。例如,池化层带来了局部的平移不变性,文献[16]中提出的形变池化层在此基础上更好地描述了物体各个部分的几何形变。在未来研究中,可以将其进一步扩展,从而取得旋转不变性、尺度不变性和对遮挡的鲁棒性。

    通过研究深度模型和传统计算机视觉系统之间的关系,不但可以帮助我们理解深度学习成功的原因,还可以启发新的模型和训练方法。联合深度学习[15]和多阶段深度学习[33]未来还有更多的工作要做。

    虽然深度学习在实践中取得了巨大成功,而且通过大数据训练得到的深度模型体现出的特性(例如稀疏性、选择性和对遮挡的鲁棒性[8])引人注目,但其背后的理论分析还有许多工作需要完成。例如,何时收敛?如何取得较好的局部极小点?每一层变换取得了哪些对识别有益的不变性,又损失了哪些信息?最近马拉特(Mallat)利用小波对深层网络结构进行了量化分析[43],这是在此方向上的重要探索。

    结语

    深度模型并非黑盒子,它与传统的计算机视觉系统有着密切的联系,神经网络的各个层通过联合学习、整体优化,使得性能得到大幅提升。与图像识别相关的各种应用也在推动深度学习在网络结构、层的设计和训练方法各个方面的快速发展。可以预见在未来数年内,深度学习将会在理论、算法和应用各方面进入高速发展时期。■

    作者:

    王晓刚

    香港中文大学助理教授。主要研究方向为计算机视觉、深度学习、群体视频监控、物体检测和人脸识别等。xgwang@ee.cuhk.edu.hk

      

    脚注:

    1 池化操作是在特征分布图的一个局部区域内取最大值或平均值传到神经网络下一层的特征分布图。经过池化操作,输出的特征分布图对局部形变具有更好的鲁棒性。

    2 预训练是对神经网络的各个层次逐一优化,从而使网络参数达到一个好的初始点。人们通常在预训练之后,利用反向传播对所有层次的网络参数进行联合优化,进一步提高网络的性能。

    3 ILSVRC,大规模视觉识别挑战赛(Large Scale Visual Recognition Challenge)。

     

    图:


     

    表:


     

     


    参考文献:

    [1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 1986; 323(99):533~536.

    [2] J. Deng, W. Dong, R. Socher, and et al.. Imagenet: A large-scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2009.

    [3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. Neural Information Processing Systems, 2012.

    [4] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.

    [5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.

    [6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 1991; 3(1):71~86.

    [7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2013.

    [8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2015.

    [9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998; 86: 2278~2324.

    [10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.

    [12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. IEEE Int’l Conf. Computer Vision, 2013.

    [13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2013.

    [14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. IEEE Int’l Conf. Computer Vision, 2013.

    [16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi-stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.

    [17] http://www.clarifai.com/

    [18] C. Szegedy, W. Liu, Y. Jia, and et al.. Going deeper with convolutions. arXiv:1409.4842, 2014.

    [19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off-the-shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.

    [20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik. Multi-scale orderless pooling of deep convolutional activation features. arXiv:1403.1840, 2014.

    [21] Y. Sun, X. Wang, and X. Tang. Hybrid deep learning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.

    [22] Y. Sun, X. Wang, and X. Tang. Deep learning face representation from predicting 10,000 classes. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [23] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [24] Y. Sun, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. Neural Information Processing Systems, 2014.

    [25] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. Int’l Conf. Learning Representations, 2014.

    [26] M. Lin, Q.. Chen, and S. Yan. Network in network. arXiv:1312.4400v3, 2013.

    [27] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.

    [28] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv:1406.4729, 2014.

    [29] J. R. R. Uijlings, K. E. A. Van de Sande, T. Gevers, and W. M. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 2013:104:154~171.

    [30] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: A benchmark. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2009.

    [31] P. Felzenszwalb, R. B. Grishick, D.McAllister, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Trans. PAMI, ,2010; 32:1627~1645.

    [32] Y. Tian, P. Luo, X. Wang, and X. Tang. Pedestrian Detection aided by Deep Learning Semantic Tasks. arXiv:1412.0069, 2014.

    [33] X. Zeng, W. Ouyang, and X. Wang. Multi-stage contextual deep learning for pedestrian detection. IEEE Int’l Conf. Computer Vision, 2013.

    [34] P. Luo, Y. Tian, X. Wang, and X. Tang. Switchable deep network for pedestrian detection. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [35] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene-specific classifier for pedestrian detection. European Conf. Computer Vision, 2014.

    [36] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2013; 35(1):221~231.

    [37] K. Simonyan and A. Zisserman. Two-Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.

    [38] J. Shao, C. C. Loy, and X. Wang. Deeply Learned Attributes for Crowded Scene Understanding. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2015.

    [39] K. Kang and X. Wang. Fully Convolutional Neural Networks for Crowd Segmentation. arXiv:1411.4464, 2014.

    [40] X. Yan, H. Chang, S. Shan, and X. Chen. Modeling Video Dynamics with Deep Dynencoder. European Conf. Computer Vision, 2015.

    [41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for visual recognition and description. arXiv:1411.4389, 2014.

    [42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

    [43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2013; 35(8):1872~1886.

    展开全文
  • 深度学习基础知识(发展历史

    千次阅读 2018-08-19 08:45:53
    1 深度学习历史及发展趋势 1.1 深度学习历史  一般来说,目前为止已经有三次深度学习的发展浪潮:在20 世纪 40 年代到 60 年代深度学习被称为控制论 (cybernetics),20 世纪 80 年代到 90 年代深度学习被誉为...

    1 深度学习的历史及发展趋势

    1.1 深度学习的历史

            一般来说,目前为止已经有三次深度学习的发展浪潮:在20 世纪 40 年代到 60 年代深度学习被称为控制论 (cybernetics),20 世纪 80 年代到 90 年代深度学习被誉为连接机制 (connectionism),并于 2006 年开始,以深度学习之名复兴。

                                        

           连接机制是在认知科学的背景下出现的。认知科学是理解心智,并结合多个不同层次分析的跨学科方法。连接机制的中心思想是,当网络将大量简单计算单元连接在一起时可以实现智能行为。这种见解同样适用于与计算模型中隐藏单元作用类似的生物神经系统中的神经元。

          神经网络研究的第三次浪潮始于 2006 年的突破。Geoffrey Hinton表明名为深度信念网络(DBN)的神经网络可以使用一种称为贪心逐层训练的策略进行有效地训练(Hinton et al., 2006a)。

    1.2 深度学习的发展

            与日俱增的数据量和模型规模

            数据量的增加,使得深度学习的一些算法获取良好性能的技巧逐渐减少,目前,在复杂的任务中能达到与人类表现可以媲美的性能。大数据时代的到来,使得深度学习变得更加容易。但我们应该注意在无监督和半监督学习中充分利用未标注的样本。

                                               

                                                                                         数据量的增加

           模型规模的扩大,较大的网络能够在更复杂的任务中实现更高的精度。所以更多学者在神经网络中引入更多的隐藏单元,使得模型规模扩大。另外,硬件(更快的CPU、通用GPU、硬盘存储量)以及更好的分布式计算的软件基础设备和更快的网络连接使得模型规模扩大成为可能。

           与日俱增的精度、复杂度和对现实世界的冲击

           深度学习提供精确识别和预测的能力一直在提高。此外,深度学习持续成功地应用于越来越广泛的应用。

                            

           上图显示了每神经元连接数。1、自适应线性单元;2、神经认知机;3、GPU加速 卷积网络;4、深度玻尔兹曼机;5、无监督卷积网络;6、GPU加速 多层感知机;7、分布式自动编码器;8、Multi-GPU 卷积网络;9、COTS HPC无监督卷积网络;10、GoogLeNet。

                                

                                                                      神经网络规模的扩大

    1. 感知机 (Rosenblatt, 1958, 1962)
    2. 自适应线性单元 (Widrow and Hoff, 1960)
    3. 神经认知机 (Fukushima, 1980)
    4. 早期后向传播网络 (Rumelhart et al., 1986b)
    5. 用于语音识别的循环神经网络 (Robinson and Fallside, 1991)
    6. 用于语音识别的多层感知机 (Bengio et al., 1991)
    7. 均匀场sigmoid信念网络 (Saul et al., 1996)
    8. LeNet-5 (LeCun et al., 1998b)
    9. 回声状态网络 (Jaeger and Haas, 2004)
    10. 深度信念网络 (Hinton et al., 2006a)
    11. GPU-加速卷积网络 (Chellapilla et al., 2006)
    12. 深度玻尔兹曼机 (Salakhutdinov and Hinton, 2009a)
    13. GPU-加速深度信念网络 (Raina et al., 2009a)
    14. 无监督卷积网络 (Jarrett et al., 2009b)
    15. GPU-加速多层感知机 (Ciresan et al., 2010)
    16. OMP-1 网络 (Coates and Ng, 2011)
    17. 分布式自动编码器 (Le et al., 2012)
    18. Multi-GPU卷积网络 (Krizhevsky et al., 2012a)
    19. COTS HPC 无监督卷积网络 (Coates et al., 2013)
    20. GoogLeNet (Szegedy et al., 2014a)

                             

                                                           深度网络在ImageNet挑战中日益降低的错误率

           深度学习是机器学习的一种方法,过去几十年的发展中,它深深地吸收了我们关于人脑、统计学与应用数学的知识。近年来,深度学习的普及性和实用性有了极大的发展,这在很大程度上得益于更强大的计算机、更大的数据集和能够训练更深网络的技术。未来几年充满了进一步提高深度学习并将它带到新领域的挑战和机遇。

    展开全文
  • 深度学习的发展历史及应用现状

    万次阅读 2017-05-24 19:51:03
    深度学习是人工神经网络的一个分支,具有深度网络结构的人工神经网络是深度学习最早的网络模型。1943年,美国数学家沃尔特·皮茨(W.Pitts)和心理学家沃伦·麦克洛克(W.McCulloch)首次提出了人工神经网络这一概念...
  • 本文是个人在学习专知课程《深度学习:算法到实战》的学习笔记。 第一讲 绪论 课时1 人工智能和机器学习概述 人工智能历史和现状 从专家系统到机器学习 课时2 深度学习概述 从传统机器学习到深度学习 深度学习...
  • 深度学习历史深度学习经典步骤神经网络的符合标记含义Wij 代表的是从神经元j到神经元i,这样写的目的是便于表达,否则最后的表达式子就是Wij的转置,细节见下面。每个神经元的偏执值组成一个向量b单个神经元的...
  • 图像识别的深度学习

    千次阅读 2017-09-12 09:31:03
    深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络...
  • 机器学习和深度学习综述人工智能,机器学习,深度学习之间的关系机器学习机器实现学习的本质深度学习深度学习的历史深度学习发展2.波士顿房价预测模型整体流程数据处理模型设计损失函数训练配置训练过程梯度下降的...
  • 深度学习发展史

    万次阅读 2018-08-24 23:52:00
    作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史。接下来我们了解一下深度学习的发展历程。 1.深度学习的...
  • 深度学习常见算法的介绍和比较

    万次阅读 多人点赞 2018-02-08 22:00:06
    很多人都有误解,以为深度...关于深度学习的理论推导,太大太复杂,一些常见的深度学习算法本人也是模模糊糊的,看过好多次的,隔断时间就会忘记,现在对其系统的整理一下(从历史,致命问题出发,再看具体算法的思想,
  • 深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。...
  • 介绍深度学习的一篇better文章

    千次阅读 2016-02-17 23:41:17
    深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络的...
1 2 3 4 5 ... 20
收藏数 65,386
精华内容 26,154
关键字:

历史 深度学习